互联网用户的情绪表达方法研究


    互联网户情绪表达方法研究

    摘 :网络信息技术飞跃发展正全方位深层次改变着生产生活方式信息发布均传输方式正历着巨变革互联网等新兴信息载体出现方社会众提供未海量信息资源方面民众提供便捷表达观点台互联网逐步成网络信息时代流传输载体仅改变众媒体传统认识极改变传统信息传播程式时网络舆交互性方式样性已成关社会稳定股忽视力量做庞互联网网络中互联网户表达信息甄部分网民某事件情绪致轮廓解利计算机等技术进行包括互联网户情绪表达分析舆情监督年计算机工智研究热点文征信息传播动力学舆演化模型提出种互联网户情绪表达方法
    关键词:情绪表达舆情分析互联网户互联网















    Abstract
    The rapid development of information technology networks are comprehensive indepth changing our production and lifestyle Information dissemination both transmission mode is undergoing tremendous change Internet and other new information appears one carrier which provides for unprecedented massive public information resources it also provides a platform for people to express their ideas easily Internet Network Information Age has gradually become the mainstream transport carrier has not only changed people for the traditional understanding of the mass media but also greatly changed the traditional information dissemination program At the same time the network of public opinion the way to freedom and diversity of interaction has become a force to be reckoned with in relation to social stability How do the vast Internet network for Internet users to express and understand screening information for most users mood of the broad contours of certain events the use of computers and other technology including public opinion supervision of Internet users including emotional expression analysis is nearly years of computer artificial intelligence research hotspot This article levy dynamics of information dissemination public emotional expression evolution model proposed method for Internet users
    Key words emotional expression public opinion analysis Internet users Internet










    目 录
    第章 绪 1
    11 研究背景 1
    12 国外研究现状 1
    13 研究意义 3
    第二章 理 4
    21 社会物理学三理 4
    211 社会物理学研究概述 4
    212 社会燃烧理 5
    213 社会激波理 6
    214 社会行熵理 6
    22 信息传播动力学 7
    23 舆演化模型 10
    231 舆波波动律 10
    232 舆演化程中三行 11
    234 舆演化概念建模 13
    235 舆演化建模仿真 14
    第三章 关键技术 15
    31 舆情热点动发现 15
    32 舆情热点关键词摘提取 16
    33 互联网户情绪倾性分析 17
    34 舆情热点传播动态分析 19
    35 舆情热点趋势分析关联分析 20
    第四章 互联网户情绪表达设计 20
    41 中文信息特征抽取 21
    411 文信息特征抽取选择 21
    412 中文语义特征抽取 22
    413 特征子集选择 24
    414 特征重构 25
    415 量生成 26
    42 基粒网络生成规文情感识 26
    421 文预处理模块 26
    422 粒网络生成规模块 29
    423 测试集应规分类结果评价 31
    第五章 互联网户情绪表达实现 31
    51 确定互联网户词褒贬倾 34
    52 实现语句情感识 35
    53 互联网户情绪表达 37
    531 极性情绪发现 37
    532 立情绪发现 37
    第六章 文总结 38
    参考文献 40

    第章 绪
    11 研究背景
    着网络技术飞速发展互联网已成报纸等传统众媒介外第四舆传播新势力网络户量信息量已超传统媒介互联网发展仅革新信息传播技术改变生活方式际交方式极影响着社会生活领域网络已成天获取信息相互交流必少方式特进入Web 20时代网络户网络信息消费者网络容缔造者网络现实社会镜现实生活中局部问题网络中放引发量讨直接反作真实社会影响着生活负面极端言危害网络容安全社会稳定
    2012年7月19日中国互联网络信息中心(CNNIC)京发布第30次中国互联网络发展状况统计报告中指出截2012年6月底中国网民数量达538亿报告中显示户数量增长达稳定水互联网普率提高更加引注目手机户急速增加手机网户数超台式机接入网络户数008亿移动终端网方便快捷成较低够时时国网络技术日新月异网络国际出口带宽达1548811Mbps IPv6址数爆发增长已跃居全球前三位种网络应增幅明显时通信增长提速微博博客数量较2011年底增长10信息传播方式更加元化网络舆交互性方式样性已成关社会稳定股忽视力量做庞互联网网络中互联网户表达信息甄部分网民某事件情绪致轮廓解利计算机等技术进行包括互联网户情绪表达分析舆情监督年计算机工智研究热点
    12 国外研究现状
    互联网通信技术发展网络成获取信息分享信息渠道越越户参网络活动中户创造海量网络信息互联网
    开放台通网络信息采集工具获取量网络数互联网实证分析提供丰富数源高性处理器出现行计算力提高数处理互联网海量数分析逐渐提日程目前实证分析研究断涌现挖掘户情绪表达特点分析网络际关系发现潜客观规律助互联网理模型效性验证参数调整
    文献[1]博客社交网络服务等Web 20网络户拓扑关系进行分析作者分抓取网新浪博客数新浪博客单网络网网络研究发现新浪博客入度出度均服幕律分布出度分布具更幂指数表示博客户未添加友甚326未添加友活跃户喜欢连接名活跃户网络入链出链出链出链度相关系数正新浪博客出链入链入链入链度相关系数负网度服双尺度幂律分布均短路径长度更短节点簇系数节点度呈幂律减节点度正相关
    文献[2]分析Twitter户域分布户友粉丝数户度相关系数Twitter户进行分类文献[3]计算 Twitter微博均短距离长度转帖深度帖子生存时间户排序等特征作者Twitter中户粉丝数PageRank值排序发现两种方法排序结果似致户转发数排序结果明显区表示户转发数粉丝数间非呈严格赖关系976转帖深度6跳转帖深度会超11跳文献[4]较 Twitter户帖子转发数回复数友数相关性分析信息传播程中户影响力特征文献[5]进步分析 Twitter中帖子获转发相关素根帖子作者友数账号创建时间等9素Twitter数进行分量分析发现帖子容特征作者特征具较强区分度影响帖子转发重素通量实际数验证描绘出帖子转发概率似着帖子作者友数粉丝数户创建时间呈升趋势
    文献[6]某济物理学网站文章载量进行统计分析发现文载次数Zipf律递减幂指数着时间推移降低意味着户总载排名前文章会翻页查非推荐文章文章单位时间载率指数衰减文章均载率方差似满足指数分布中a位
    0609间前研究早先研究认序参数方差均值分布指数a051
    目前研究针户关系宏观结构户体微观交互单独建模未分析驱动网络户情绪表达质素未解释参群情绪表达偏户性格惯异质性群体结构演化作网络宏观结构产生原未达成识研究理解网络户客观规律面着诸挑战
    13 研究意义
    互联网户情绪表达分析信息演化机制研究助社会物理学计算机科学信息科学系统科学复杂网络等理通计算机建模数挖掘方法分析户情绪表达动机建立户参情绪表达模型建模网络体观点交互程揭示宏观舆微观体情绪表达联系探索群体性意见出现条件预测信息传播趋势户传播行动研究具重理意义应价值互联网户情绪表达分析信息演化机制研究助生物群体情绪表达群落结构演化研究社会学等学科研究提供数获取处理方法网络户发帖转帖回帖户间交流等情绪表达反映户生活惯体特性通户情绪表达分析够掌握众情绪表达特性分布助网络异常情绪表达检测防患未然分析网络户情绪表达群体结构关系理解体动机掌握群体结构演化规律研究复杂群体情绪表达具鉴意义
    互联网户情绪表达分析信息演化机制研究助握舆动态发现潜热点话题实现舆情监测重手段网络户关系研究够帮助理解互联网特殊拓扑信息传播加速催化作提高信息传播机制认识进步研究促进阻碍信息流动户传播情绪表达话题增长趋势预测助早发现潜引发量关注话题舆监测突发事件预警提供参考
    互联网户情绪表达分析信息演化机制研究认识网络舆质演化规律必条件研究网络舆引导策略前提基础构建健康良网络环境维护社会谐具积极意义互联网动态性容开放性匿名性
    造成舆形成突发性演变环境复杂性负面情绪够短时间产生较影响互联网信息演化机制研究利理解宏观舆形成相变条件分析互联网种特异性舆演化方影响掌握微观特性作机制助针性研究引导舆情发展趋势方法手段恰构建谐网络环境
    第二章 理
    21 社会物理学三理
    211 社会物理学研究概述
    社会物理学发展历程稍加追溯会发现门渊源久远根基深厚容广泛实价值高交叉学科17世纪威廉·配第政治算术呼吁拉普拉斯口性误差曲线提出开启寻求物理学定律样研究社会问题法国政治哲学家奥古斯特·孔德认社会秩序然秩序简单延伸首次1830年左右社会物理学名称划分社会静力学社会动力学成古典社会物理学奠基者
    200年社会物理学相继历孔德代表古典社会物理学代社会物理学现代社会物理学三发展阶段社会物理学研究者正尝试什类行粒子运动样进行正确诠释企图社会微观行机序中揭示出社会宏观行识特征网络传播舆形成济运行社会安全遵循普适性规律进行深入挖掘终实现社会行规律认知模拟调控
    中国现代社会物理学派代表物牛文元教授逐步构建社会燃烧理社会激波理社会行熵理三理体系社会物理学研究质进行理述现代社会物理学实质总建立:统承认物理世界文世界处呈现出广义差异统承认广义差异非均衡必然导致广义梯度统承认广义梯度必然产生广义力统
    承认广义力作必然产生广义运动广义流探索广义运动广义流然科学社会科学面致求现代社会物理学适应种统求存现代社会物理学般定义作表述:网络世界虚拟情景中应然科学思路原理效融合理性修正识模拟解析寻求现实世界中社会行规律社会结构分布充分交叉性学科
    212 社会燃烧理
    社会燃烧理2001年提出社会序失稳动乱然界燃烧现象进行合理类理然界中燃烧现象物理程化学程物理程中指物质衡量守衡化学程中指物质变化变化赖基条件加总结燃烧发生必须具备三基条件燃烧物质助燃剂点火温度三者缺中燃烧物质燃烧发生前提性基条件助燃剂燃烧程进行加速燃烧程中起催化作点火温度直接燃烧物质发生燃烧外仅激活助燃剂助燃功起加速着火温度阈值突破程
    然界燃烧程原理引入社会稳定领域引起社会序基动时发生然关系协调关系谐视社会稳定燃烧物质非理性判断敌势力恶意攻击片面利益刻意追逐等做燃烧助燃剂述二者具备时候突发事件发生作动乱导火线点火温度必引发具定规模影响群体性突发事件终导致社会稳定谐
    社会燃烧理机理认:然间关系达充分衡间关系达完全谐时整社会处理意义绝稳定极限状态发生背离述两关系衡谐会社会稳定状态程度负贡献(形成社会动乱燃烧物质)类负贡献量质积累定程度错误舆导煽动(相增加社会动乱助燃剂)会形成定口数量密度理空间规模社会稳定程度逐渐降低逼发生动乱I界阈值时某突发导火线(出现社会动乱点火温度
    )刺激发生社会失衡(稳)社会失序(动乱)社会失控(暴乱)直社会崩溃
    213 社会激波理
    激波气体高速运动程中重现象气体受强烈压缩产生强压缩波强间断面种薄间断称激波(支启军2003)薄层中速度温度压强等物理量迅速波前值变化波值速度梯度压强梯度温度梯度激波理中十分关注波流动情况需知道物理量通激波变化
    目前激波理思想解决社会问题特具波动现象复杂问题车流群流动等方面应群拥挤时视连续介质群中产生扰动(直接表现密度变化)波形式群中传播时群中体间差异导致波发生非线性畸变导致激波产生拥挤事
    社会激波理作社会物理学中三理描述社会动乱时空形式常仿真建模方法技术Ising(铁磁)模型Sznajd(传教士Deffuant(谈判者)Krarise&Hegselmann(机会义者)模型谣言扩散模型银行破产模型蒙特卡洛模型等
    文基社会激波理说明舆演化模型时空耦合系统中探寻舆演化机理包括时间传播演化态势空间扩散分布规律寻求变动态舆趋势波幅扩散规律
    214 社会行熵理
    社会行熵社会动乱源物理学熵理解释组成群体行理六规:
    ⑴ 类普适努力原
    想出力气换取效益行国家济发展想花少钱换取收益天性发法违背
    ⑵ 发追寻熵原
    直处静状态办方住久感觉天社会义改革开放带成果满意时候偏说时味嚣谩骂实际满足现状时候愿意理性静思考总感满足然天性
    ⑶ 觉维系心理衡原
    假遭受击劝说反思慢慢静构建谐社会帮助说通说服工作象接受认知体验控制
    ⑷ 持续激发情商鸣原
    情商鸣愿意接受尊敬崇拜认开导某种意社会公众政府领袖树立起榜样力量作穷
    ⑸ 社会取倒u型走势原
    数总认直推三皇五帝时候者未产义世界家认觉现处社会点头觉社会整体走势种现象倒U型走势
    ⑹ 希遵守例外社会公约
    行包括群体行着规规组合造成希遵守例外社会公约
    22 信息传播动力学
    信息传播真实世界普遍现象信息传播程研究助分析信息流动机制预测信息扩散范围进步找促进抑制信息传播措施信息传播模型均场进行分析解析表达式信息传播研究方法手段样应互联网舆传播研究工作中
    社会物理学包含社会科学容阐述社会网络语言进化口动力学疾病传播恐怖义票选联盟形成等许问题信息传播动力学研究题中渐渐成流外舆成现代社会重
    焦点解机制面重挑战关该领域进展全球面敏感问题处理方法产生巨影响征信息传播动力学模型举出面例子
    研究舆现象方法赖简单假设发现系列令震惊强力结特发现信息传播形成动力学机制遵循流流方相互立观点初始支持阈值决定数模型会服样阈值动力学事实属单概率序列机制范畴
    值提2005年社会物理学模型首次预测令难置信政治票选结果民意调查分析预测出结实际票选结果公布13期提前月该模型处理少数观点公众讨中传播动力学机制时两状态变量系统应许范围议题中包括法国票选全民投票吸烟禁烟行改变伊拉克战争种军事行动支持反法国关9·11事件谣言改革建议等
    两状态变量模型研究公众观点公众讨中形成agents活动根agents持观点原组中进行讨次讨结束根局部数规改变观点相关动力学机制局部观点反复更新驱动组数偶数时会出现局持相观点数占50%根agents信念选择支持观点解决该问题终舆形成带分隔值口acr阈值动力学程acr决定吸引子aA者aB流动方够保证观点A观点B分取获胜数优势agents流动两吸引子持观点aA1aB0通公众讨中会产生种观点
    果观点A初始支持at>acr存观点An次连续更新at+1at+2>⋯>at+n≈aBm≠nmn通计算求整数取意值阈值acr处分叉
    奇数讨组acr12偶数讨组允许疑问中达成局针疑问集体信念激发产生支持中某观点局部偏见
    偏见acr取值介01间赖持两类观点群群体信念分布局部更新组acr<1/2时相关动力学机制少数意见传播
    acr12存局情况研究异构agents持相反意见agents信念坚定agents意见流动agents产生效果研究发现舆动力学理重影响
    持相反意见者指改变立场意反局部数意见考虑数意见agents数意见少数意见低密度够稳定存aA≠1aB≠0acr保持12变然关键值外会减动力学阈值种唯情况血aAaBacr12会驱动动力学机制初始条件什通公众讨会群体意见稳定50%支持观点A50%支持观点B阈值消种出意料机制解释著名2000年布什—戈尔美国总统选预测拥50%选民情况会次发生常发生民制国家选举中德国意利墨西哥民意调查结果显示数层次持相反意见者控制全局非局部50%附引起混乱行
    信念坚定agents组讨中绝改变立场产生效果持相反意见agents产生效果相似坚持观点A观点B意见者密度产生效果称特坚持见者持种观点时观点变确信疑赢全部支持相拥绝数支持者种观点密度低坚持见者支持种观点通讨会扭转该例终接受少部分坚持见者持观点
    公开讨期民特色许会成台独裁机器传播少部分观点传播初始时绝数持观点许够全球变暖现象社会观点带全新反直觉想法
    23 舆演化模型
    舆演进模型社会物理学家社会学研究成果基础统计物理方法观点交互程建模舆演进程研究致力回答两问题:观点交互程终导致样系统状态群体中观点时出现重相变转折种条件导致突变出现第问题试图描述舆演化程中宏观状态研究舆演进趋势预测基础第二问题挖掘观点演化程中关键素找素舆演化程演进速度影响研究结果助舆引导策略分析舆演进模型假定限尺度群体中体持某社会济事件等话题观点体该话题邻居进行交互努力劝说方采纳意见体观点初始时混合均匀更新进程中体预先定义规交换意见动力学模型统计物理方法建立微观体交互情绪表达系统宏观状态间桥梁终群体观点演化致意见极化者破碎状态
    231 舆波波动律
    舆种表层意识传播呈现起伏状态接受意见快慢力等区出现反应强度种传播强弱造成落差感受 种波状起伏种动势称舆波
    舆波非线性形式四周扩展定范围公众卷入舆舆传播强弱落差感知测度反应强烈区处舆波峰反应微弱区处舆波谷舆波民心波动现舆中心外震荡起伏扩展舆波通常连续击方式蔓延定社会环境中回旋振舆波间相互抵消叠加终形成种合力舆波表现社会击力时空中时急时缓忽高忽低波动舆定势更曲折更复杂(刘建明等2009) j
    舆波包括意见波行波两种表现集合意识高涨程度方式通常情况运语言通议讲演游说新闻报道等表达意见强烈愤恨度满时便采取种行动表达意构成行
    舆波文第四节阐述舆形成程中表达舆形成界阈值点行舆波形成群体性突发事件发生舆演化更高级形式
    国位学者舆波着少研究.认追寻舆流动源头流提供思路中清华学刘建明教授根舆产生波动方提出舆波动律包括中心辐射律遍涌动律两点呼应律波振荡律四种具体述:
    (1)中心辐射律:舆传播舆中心轴四面八方传递围绕舆中心形成远波涛气势称舆中心辐射律辐射律破信息传递线性模式舆传播普遍规律
    (2)遍涌动律:舆受中心带意见刺激公众种舆客体(某社会现象问题)形成构成舆遍涌动律社会问题般具普遍性现象问题引发舆波遵循着遍涌动律
    (3)两点呼应律:舆客体仅涉两(限)舆体关系利益更两点点范围产生呼应性舆间进行着舆立动
    (4)波振荡律:舆传播渠道互补性性质断改变构成波振荡律利益兴趣志等相时种舆传播渠道相互助产生明显快速激荡效果致引起舆激化态势
    232 舆演化程中三行
    舆形成演化程中梳理剖析社会公众行特点纳众利众行取决心理层面惧怕孤独愿意少数服数行涉道德观权(权力)(威)特中国受千年文化遗留思想愿意破道德束缚官位思想严重容易利行受价值观驱动利益面前言行会着受益方摆动三行建立舆形成演化仿真规重
    (1)众行
    众指事某活动时事活动群体中数意见行事搞套社会心理学指出体群体中常常会知觉受群体压力知觉判断信仰行方面表现出群体中数致行倾众现象称众行
    舆形成演化程中具整合功暗示识致意义基德国社会学家诺尔纽曼提出沉默螺旋(the spiral of silence)理认具社会天性防止交中孤立总寻求周围关系谐样形成种沉默螺旋现象:感觉意见属数优势时便倾积极发表言反会防止孤立保持沉默种程会激发出众行结果原优势方越越强沉默方会越越生气
    (2)行
    遵指求权威影响服行行包括权两种类型权指分布着等级性舆场中舆体社会公众受权力制约控者接受前提控者情愿否(然思想愿接受更)必须接受种制约遵种约束约束行权力种接受遵般条件控者愿甚持相反意见制约否会受权力制裁行权行处社会民众具强制服性指威觉吸引着社会众行选择舆演化程中称舆领袖具榜样力量
    (3)利行
    利指外利益驱动偏选择价值取认知情感舆客体样性涉社会舆体层次广泛动性趋利倾舆演化程中扮演着导作
    利行重针舆客体(社会现象问题)舆体(社会公众)国家理者突决定谓谐指种力量交互作运动中形成种相互制约相互促进相互牵制衡状态
    针舆体国家理者间基利行舆双刃剑国家理者角度舆监督调控社会公众利益导手新闻媒体作国家理者舆宣传工具谋取包庇权者非正利益触顾社会民众正常利益必引起民众舆激行
    234 舆演化概念建模
    假设:N舆体体i意见表达σi中i12⋯N
    定义1:舆演化三素涉{σi:社会公众行选择E:舆环境t:舆演化时间}表达:
    YFσEt
    中Y围绕着发生社会现象事件舆演化度
    定义2:社会公众行选择包括{S:体偏选择S:体间相互影响}表达:
    σf(SS)
    定义3:社会体行偏选择基{c:众行p:行r:理行l:利行}表达:
    Sψcprl
    中体i述种行影响t时刻t+1时刻问会形成舆演化程中坚持原意见力
    舆演化传播体断选择()说服程终表现形式群体(部分群体)行致性万引力定律思想体现体间t时刻t+l时刻交互影响行变化具体表达:
    S'j1Nkσi∙σjdijα
    中k常系数dijα表示体i体j距离σi∙σj描述体i体j间致性
    σi∙σj>0体i体j意见致体i持原意见
    σi∙σj<0体i体j意见相左:
    S+S'>0时体i持原意见
    S+S'<0时体i改变原意见
    定义4:舆环境{E:外部环境E:部环境}表达:
    EφEEEI
    中外部环境包括相关法律法规媒体导等部环境涉已约定俗成宗教信仰等
    舆外环境舆形成演化程中起着关重作2003年SARS事件初期信息渠道统畅通确定致社会公众生存环境表示担忧焦虑甚恐慌严三九徐晖明等调查结果显示:SARS初期广州市民该疾病传言561%半信半疑203%确信疑基信毫相信分占10%79%两者低确信疑基盲目众风发布谣言谣言迷惑期间际互动程中谣言压倒性占数意见更加坚信谣言关部门方努力流媒体次辟谣报道逐步树立良舆环境纠正舆导社会公众渐渐趋理性理问题谣言终破灭
    235 舆演化建模仿真
    舆演化程基体意见场中断选择终表征群体行涌现研究类复杂问题者非结构问题建模种基手段综合集成方法强调复杂问题求解者复杂系统建模需种视角力求形成问题较完整想定根RLAekoff等(1968)提出建模基原年复杂系统研究采种方法顾基发等(2007)总结6种建模策略方法:
    (1)基机理建模计量济模型投入产出模型
    (2)基类建模基案例推理分析等
    (3)基规建模典型复杂适应系统理中基体建模
    (4)基数建模种统计模型系统重构模型等
    (5)基演化建模系统演化模型等
    (6)基学建模(modeling by learning)基数挖掘知识发现种模型工神网络模型等
    第三章 关键技术
    互联网户情绪表达研究目标题发现追踪技术基础通动发现深入分析方式综合展现前互联网户情绪倾研究容包括:特点舆情热点动发现关键词摘提取互联网户特定舆情情绪倾性分析传播分析互联网户情绪趋势分析关联分析等
    31 舆情热点动发现
    舆情热点动发现基题检测技术帮助应信息载问题研究新闻坛博客等媒体网页作处理象动发现新出现舆情热点涉某热点报道组织起某种方式呈现户目标实现热点查找组织利种信息源语言信息技术提高舆情监测综合性实现种源种形式舆情综合性分析监测力全面掌握新闻坛博客等种网络传播媒介舆情热点传播动趋势分析等提供基础提高舆情监测全面性精确性
    世界国普遍重视网络热点信息发现网络信息形成传播机制等方面研究关键技术目前关网络舆情热点研究两方:
    基然语言处理技术——词频统计方式研究涉技术未登录词识中英文分词针快速发现热点话题问题参考文献[8]日BBS系统进行分类研究基BBS享目标(Shared Goals)信息互惠(Reciprocity)享环境(Shared Context)等种度量指标提出维量度量话题活性话题活性测量方法种研究方法法量话题基历史信息情况快速发现讨热点均具较长时间滞性较高计算复杂度
    二数挖掘角度考虑热点信息发现利复杂网络特性信息进行分类聚类热点发现算法质说属数挖掘中文聚类算法发
    现热点质量文聚类算法身特性算法应中种阈值设置密切相关传统文档聚类需参数没效方法调整参数热点话题识中没先验知识构造排序函数话题排序难决定话题热阶段中国香港中文学Gabriel PuiCheongFung提出参数热点话题识方法种方法通特征分布确定某时间单元热特征单元然特征分组成热话题根特征时间窗口确定话题热阶段北京邮电学罗亚王枞等认传统网络热点话题发现方法仅仅考虑媒体关注度形成热点话题影响忽视热点话题产生社会众关注密切关系进提出基话题关注度户浏览行热点话题发现模型种模型中相关参数难获取
    外识出热点话题进行描述热点话题发现研究重点话题显示方面国外没相关研究改进TDT信息提取中相关研究方法
    32 舆情热点关键词摘提取
    舆情热点关键词摘提取动舆情热点文档集合摘取精点目通原文进行压缩提炼户提供简明扼容描述关键词摘描述篇文章文章集容重部分处摘中提供语义连贯句子关键词抽取彼独立词汇技术文档文档集生成高质量关键词摘方便户浏览检索结果文档集合解文档文档集容希海量文中快速准确获感兴趣容信息检索领域目前迫切需解决问题然现信息检索系统提供户检索文档全文提出通关键词摘户提供简明扼容描述关键词简描述篇文档容重元数户通关键词迅速解文档容判断文档否感兴趣话题动关键词技术满足应需求方研究基础改进工作质量起作例关键词提取文信息检索技术基础文信息检索技术利篇文档中关键词形成文档索引然根索引检索出满足条件文档形成效正确描述文档索引文
    信息检索关键索引源正文档中提取出关键词
    关键词样摘描述篇文档容重部分摘中提供语义连贯句子彼独立词汇根处理文档维度(Dimension)摘分单文档摘文档摘:单文档摘单篇文档生成摘文档摘文档集生成摘根摘采方法般情况动摘技术致分基统计摘录式摘基意义理解式摘两类方法中两类方法处理象单文档文档实现技术指导指导基统计摘录式摘称机械摘终摘容完全原文档容部分拷贝基统计机械文摘文作句子线性序列句子视词线性序列通利统计学方法语言学特征进行文摘生成根线索词词典词频词句子启发函数进行模式匹配提取摘目前摘录式摘基句子提取单元基句子提取方法会句间存连贯句子身保持致性连贯性基段落提取会造成提取出摘冗余度较摘长度难控制基意义理解式摘利然语言处理技术文档进行浅层深层理解句法语义知识阶谓词逻辑等理文章容理解基础中词项句子进行重组代形成摘基意义理解文摘程中模仿工摘程应词句段篇章知识生成文摘具定连贯性语句完整性读性高需较成熟工智技术型专家知识库文章进行深层句法语义分析应某特定题材文体容具相预见性文章中文摘质量十分令满意
    33 互联网户情绪倾性分析
    网络虚拟性匿名性网络文容数情况真实表达出民众态度情绪通倾性分析明确网络传播者意图倾通俗说文舆情描述文传递情感文舆情进行分析实际试图根文容提炼出作者情感方舆情热点倾性分析指热点文档回复信息进行倾性分析通分析文褒义词贬义词结
    合文进行语境分析者通基机器学倾性分析算法计算出文档回复倾性素倾性素时加权出篇文档倾性素度量值时间统计出该热点倾性指标总体变化某段时间范围倾性指标增量倾性指标超出某安全范围时出提示信息舆情信息提前预警
    年基文互联网户情绪倾性分析研究逐渐成国外研究者热点互联网户情绪倾性分析指通计算机技术动分析文信息包含情感素倾性分析门交叉学科涉然语言处理机器学文挖掘工智语言学等诸领域前传统工处理方式相通计算机动提取众某问题法舆倾新实时收集分析信息方法优势:高效处理信息够应互联网日益泛滥海量数处理非结构化文数拓展数挖掘处理象正情感动分析优势着众潜应领域
    止国外事网络文倾性分析研究工作纳方面:
    (1)客观性分类:Web获取评文档类型风格区分观客观两类类工作Finn等代表结基词性标注特征选择方法词袋方法效果Wiebe等工标注语料短语句子篇章层次进行研究发现标注者观性判较差异
    (2)词极性判:通分析带语气渊特征判断词极性HatzivassiloglouMcKeown关联词(公合法简单受欢迎)区分含义相相反词TurneyLittman提出种方法AltaVista中NEAR运算Web搜索两词时出现次数决定两词相似程度新词属正面语气负面语气取决手工选择正面(负面)种子词集合中词关系类工作常规词聚类问题定关联LinPereira等语言学位关系法意义相似词进行类
    (3)语气分类:
    ①基语气标注方法:加渥太华学Kennedy加国家研究委员会Turney等提出语气词标注方法常词汇进行语气标注(标
    正面坏标负面)分类时直接统计篇评中正面负面语气词数正面语气词判正面负面语气词判负面相等判客观
    ②基语义模式分析方法:Tetsuya NasukawaJeonghee Yi等通识特定题词语气表达式间语义关系进行倾性分析Jeonghee Yi等采然语言处理技术分析特定题语气词间语义关联
    ③基机器学方法:思想直接利传统机器学方法训练语气分类器康奈尔学Lillian LeePang Bo等Usenet电影评作语料进行研究采特征选择方法机器学方法实验结果显示基presencebased frequency模型选择UniGrams方法采Support Vector Machine(SVM)进行分类取分类结果准确率829%
    倾性分析面问题目前部分方法技术领域话题相关局限某特定领域者关联某话题进行倾性分析缺乏般性通技术基语气词标注方法严重赖标注专家利训练样分类精度基机器学方法基机器学倾性分析方法取决训练集质量时具强领域题赖性已标注语料库规模类监督语气分析方法效果然难保证基语义模式分析方法受限然语言处理技术够成熟难实中文倾性分析方面情况更加突出基问题尚未圆满解决:
    (1)种监督机器学方法中文数集语气分类效果孰优孰劣
    (2)文特征表示方法特征选择机制等素中文语气分类性产生什影响
    (3)文档集语气特征语气分类精度具决定性影响等
    解决述问题应着重研究倾性客观滤技术观点极性强度情感分析判技术:研究网络环境倾性特征词特点类型进行语气极性判标注构建面互联网倾性语气词典建没定规模标准数集中文倾性分析深入研究公开评测提供支持
    34 舆情热点传播动态分析
    舆情热点传播动态分析目标利新闻坛博客等关联分析技术实
    现某热点传播趋势进行分析动态传播图形式展现舆情传播线索舆情传播动态模块热点坛帖文博客文章网站新闻进行基时间罚分策略计算关联程度分析传播网形式出题媒介间传播关系结合关注程度分析出热点转移趋势面图传播动画示意图展现户
    35 舆情热点趋势分析关联分析
    舆情热点趋势分析关联分析通三维图形信息挖掘模型波谱图方式展现定时间周期舆情变化舆情重点相关关系等信息该模块通粗细亮暗分叉方式表达时期报道信息数量关注度趋势等舆情变化判断提供定参考
    第四章 互联网户情绪表达设计
    网络时代互联网仅成发布信息重媒介表达观点情绪情感重工具相事物事件视角出发持观点态度例某件产品户喜欢某方面功特点做正面(褒义)评价时户喜欢某方面功特点做负面(贬义)评价网产品评价信息产品潜户商家说着巨实价值方面户通阅读产品评价信息指导购物行方面产品商家通解户评价改进产品服务
    然户想全面解互联网某种事物事件评价疑项艰难务海量评价信息仅数量难逐浏览信息受户观认识影响表现出复杂样特点互联网户情绪表达中情感倾分析技术正通计算机动识海量文档集合中观褒贬态度户繁重网页浏览信息融合工作中解脱出
    情感倾分析技术计算机通文容处理帮助区分文容否观评价性容进识种观评价褒义贬义年情感倾
    分析研究中开始关注识情感评价体评价象基机器学文分类聚类等技术情感倾分析研究中广泛运
    41 中文信息特征抽取
    411 文信息特征抽取选择
    文表示特征项选取互联网户情绪倾分析基问题文中抽取山特征词进造化表示文信息—结构原始文转化结构化计算机识处理信息文进行科学抽象建立数学模型描述代文木计算机够通种模型计算操作实现文识文非结构化数想量文中挖掘信息必须首先文木转化处理结构化形式
    目前通常采量空间模型描述文量果直接分词算法词频统计方法特征项表示文量中维量维度非常种未处理文量仅续工作带巨计算开销整处理程效率非常低会损害分类聚类算法精确性结果难令满意必须文量做进步净化处理保证原文含义基础广找出文特征类代表性文特征解决问题效办法通特征选择降维
    关文表示研究集中丁文表模型选掸特征词算法选取表示文基单位通常成文特征特征项特征项必须具备种定特征:
    ①特征项够准确标识文容
    ②特征项具行目标文文相区分力
    ③特征项数太
    ④持征项分离较容易实现
    中文文中采宇词短语作表示文特征项相言词字具更强表达力:词短语相词区分难度短语区分难度日前数中文文分类系统采词作特征项称特征词
    特征词作文档中间表示形式实现文档文档文档户目标间相似度计算果词作特征项特征量维数巨导致计算量太样情况完成文分类特征抽取功损伤文核心信息情况量减少处理单词数降低量空间维数简化计算提高文处理速度效率
    文特征选择文容滤分类聚类处理动摘户兴趣模式发现知识发现等相关方研究着非常重影响通常根某特征评估函数计算特征评分值然评分值特征进行排序选取教干评分值高作特征词特征抽取
    特征选取方式4种:
    ①映射变换方法原始特征变换较少新特征
    ②原始特征中挑选出具代表性特征
    ③根专家知识挑选影响特征
    ④数学方法进行选取找出具分类信息特征种方法种较精确方法受素干扰较少尤适合文动分类挖掘系统
    412 中文语义特征抽取
    (1)汉语分词
    汉语种孤立语印欧语系具曲折变化语言汉语词汇种形式没诸复数等变化方面汉语存显式(类似空格)词边界标志需研究中文(汉语中文应概念完全致引起混淆情况文未进行明确区分常惯选择)文动切分词序列中文分词技术中文分词方法早采匹配法词表中长词优先匹配方法根扫描语句方分正匹配双匹配等种形式
    梁南元研究结果表明词典完备助知识条件匹配法错误切分率169字次~245字次该研究实现1987年现条件时实验规模偏外判定分词结果否正确较观性匹配法思路直观实现简单切分速度快等优点应较广泛采匹配法进行分词遇基问题切分歧义消问题未登录
    词(新词)识问题
    消歧义研究员尝试种工智领域方法:松弛法扩充转移网络法短语结构文法专家系统法神网络法限状态机方法隐马尔科夫模型Brill式转换法分词方法角度总结歧义产生原尝试建立歧义消模型达定准确程度然方法未实现中文词真正理解没找妥善处理种分词相关语言现象机制目前尚没广泛认完善歧义消方法
    未登录词识中文分词时遇难题未登录词称新词指分词时词典中未包含词常见名名机构名称等专名词相关领域专业术语词包含分词词典中分类贡献需考虑进行效识
    未登录词识统计专家系统两角度进行:统计方法规模语料中获取高频连续汉字串作新词专家系统方法类专名词库中总结相关类新词构建特征文特点等规前未登录词识研究相歧义消说更成熟
    (2)汉语亚词
    亚词级汉语处理英语存处方面汉语中词级更低文字组成部分字英文中单词含字母数量相偏少词长度2~4字搜狗输入法中34万条词表进行统计长度词占词表例分两字词3557%三字词3398%四字词2737%余长度308%
    方面汉语包含汉字数量远远英文字母数量GB 23121980标准收录6763常汉字(GB 2312—1980682符号GB 18030—2005标准收录27484汉字时收录藏文蒙文维吾尔文等少数民族文字)该标准属收录汉字较少编码标准实际计算中汉语二元模型已超英文中5元模型组合数量67632(45738169)>265(11881376)
    汉语采n元模型陷入两难境:n较时(n1)缺乏足够语义表达力n较时(n23)仅计算困难n取值已n元模型长度达甚超词长度失英语中弥补错误拼写功汉语n元模型途中文信息处理中利二元
    三元汉字模型进行词统计识种做法基假词字串高频现组止词字串低频出现
    网络容安全中n元模型重应信源文采二元分词方法(二元汉字模型)例二三四二:元分词结果二二三三四种表示方法定程度消信息发布者意利常分词切分结果躲避滤情况
    413 特征子集选择
    特征子集选择原输入空间抽取出特征项集合选择子集合组成新输入空间输入空间称特征集合选择标准求子集完整保留文类区分力舍弃文分类贡献特征项
    机器学领域存种特征选择方法Guyon等特征子集选择进行详讨分析较目前常3种特征选择方式:滤(filter)组合(wrappers)嵌入(embedded)文分类问题训练样特征维数高等特点决定实际应中滤方式采评级方式(Single Feature Ranking)特征项进行单独判断决定该特征项否会保留没考虑更全面搜索方式降低运算量特征项进行单独评价选择定评价函数某阈值子集组成新特征集合评价函数值特定数量特征项组成特征集
    特征子集选择涉文中定量信息相关参数定义表41示
    表41 文档特征项参数含义
    N
    训练样数
    nci
    ci类包含训练样数
    n(t)
    包含特征项t少次训练样数
    n(t)
    包含特征项t训练样数
    nci(t)
    ci类包含特征项t少次训练样数
    nci(t)
    ci类包含特征项t训练样数
    tf
    训练样中特征项出现总次数
    tf(t)
    特征项t训练样中出现次数

    tfdj(t)
    特征项t文档dj中出现次数
    容易知参数间满足关系:
    ni1knci
    表示样总数等类样数
    nti1knci(t)
    表示包含特征项t样集合满足类似关系
    nnt+n(t)
    表示ntnt互补
    ncincit+nci(t)
    表示种关系适意定文类
    tfi1mtfti
    tftj1ntfdjt
    分表示tftf(t)计算方法
    利参数结合统计信息等学科进行特征子集选择
    414 特征重构
    特征重构特征项集合输入利特征项组合转换生成新特征集合作输出方面特征重构求输出特征数量远远少输入数量达降维目方面转换特征集合应保留原类区分力实现效分类特征子集选择相较特征重构生成新特征项求应原特征项新特征顶原米单特征项某种映射关系转换成种转换规需保存便新样进行样转换样应特征重构情况表木形式
    特征重构基语义方法词干知识库方法:基统计等数学方法潜语义索引
    415 量生成
    量生成文字特征项赋予合适权重量生成相关参数定义:设m项t1⋯tm特征定样d特征出现频率次数组成特征频率量DTFTFDt1⋯TFDtmT中TFDti表示ti样d中出现次数量生成环节基础权重量dwdt1⋯wdtmT
    样中某特征项权重局部系数全局系数正规化系数3部分组成
    wdtw1(dt)wgtwnd
    42 基粒网络生成规文情感识
    基粒计算文情感识模型分两模块:
    421 文预处理模块
    情感文训练集进行预处理包括提取情感候选词特征词提取文量表示首先260篇训练文中科院中文分词系统ICT—CLAS分词
    (1)提取情感候选词传统基题文分类文训练集作输入文情感分类中具情感倾词具导作GRCSC模型加入知网HowNet正面情感词库负面情感词库正面评价词库负面评价词库作输入提取情感文训练集中情感词评价词作特征选择候选特征词
    文谭松波公开文情感分类语料中机选取260篇作训练集首先提取候选特征词211
    表42表43部分候选词
    表42 部分正面候选词
    候选词
    条件阈值
    候选词
    条件阈值
    候选词
    条件阈值
    便利
    0

    09575
    星级
    1
    喜欢
    0
    优雅
    0
    便宜
    09183


    08708

    09709
    热情
    06500
    满意
    07982

    0
    快捷
    0

    07982
    实惠
    0

    0
    免费
    09457

    1
    惊喜
    0
    礼貌
    0

    0994
    整洁
    0
    舒适
    0

    09886
    简单
    07219
    高级
    0
    豪华
    1
    齐全
    08112

    1
    清洁
    0
    合适
    0
    表43 部分负面候选词
    候选词
    条件阈值
    候选词
    条件阈值
    候选词
    条件阈值
    冷冰冰
    0

    05983

    0
    虚假
    0

    08116
    破旧
    0
    陈旧
    04537

    08812
    简陋
    0
    肮脏
    0

    0

    09877

    08823

    0

    06500
    惨痛
    0

    0
    气愤
    0
    投诉
    0

    09183

    1

    09984
    勉强
    1
    冷淡
    0
    糟糕
    0
    蛮横
    0

    0997
    岂理
    0
    简单
    07219

    0
    塌糊涂
    0
    惨忍睹
    0
    担心
    1

    (2)候选词中提取特征词相目前文情感分类训练集中进中提取候选特征词会文分类重特征词提取出便宜词两评文:
    句1:酒店环境差位置偏设备陈旧价格便宜
    句2:酒店服务态度价格便宜
    句1中特征词便宜文极性neg句2中特征词便宜文极性pos
    HowNet情感词倾性标注标准具分布面广收录全优点根提取特征词定适专业领域评价文便宜想老闹免费等词提取出特征词分类影响候选特征词做二次提取
    基重标记CRF句子情感分析研究中指出总体文情感倾分类信息增益优特征选择方法书信息增益方法候选特征进行二次提取终分类特征集
    信息增益(Information Gain)包含信息量度量种较特征项抽取方法般熵表示没先验知识聚类文进行特征项抽取词条tk聚类文信息增益IGtk:
    IGtkHDHD|tk
    中文集合D信息熵:
    HDdi∈DPdi×log2Pdi
    词条tk条件熵:
    HD|tkdi∈D(Pdi|tk×log2Pdi|tk)
    IGtk反映tk包含信息量IGtk排序排序结果设置阈值做截断处理排前面应文候选特征词终取列选特征资格Pdi|tk分布越均匀提供确定信息越相反果概率分布越集中提供确定性信息越分类聚类说种确定性信息越越IGtk取值越词包含信息量越分类聚类够提供信息越选择词作特征词分类聚类确定性越
    文中选择信息增益(Information Gain)特征项抽取方法
    表44信息增益特征词排序结果设置截断选择85特征词终生成文量表示
    表44 特征词信息增益排序
    特征词
    信息增益
    特征词
    信息增益


    01057
    表扬
    00195

    00736
    整洁
    00195

    00341
    投诉
    00195
    温馨
    00235
    满意
    00195
    简陋
    00235
    满意
    01822

    00235
    实惠
    01556
    糟糕
    00235
    便利
    01556
    陈旧
    00475

    01556

    (3)文量表示BPang文献指出布尔型概率估算文情感分类中优词频型特征概率估算文布尔型量表示训练文集
    Vdωt1ωt2ωt3⋯ωtn
    Wtn01
    422 粒网络生成规模块
    (1)粒网络建立模块根文量逐层建立粒网络直产生全部粒网络
    (2)根粒网络提取规图4—4粒网络生成规文情感分类模型

    图4—4 粒网络生成规文情感分类模型
    图45陈旧1基粒引出粒网络分支语料短两句话评价算法基覆盖产生规四公式短规

    图45 陈旧1基粒引出粒网络分支
    423 测试集应规分类结果评价
    正确率定义:
    AccuracyA+DA+D+B+C
    中A正面文正确分类情况D代表负面文正确分类情况B代表正面文错误分类情况C代表负面文错误分类情况
    通78测试集应规实验分类结果:
    A23
    D29
    第五章 互联网户情绪表达实现
    互联网户情绪体现基做分析互联网文信息互联网户文表达情感识做文倾性分析基目标实现区分出正面负面者中性做极性分类恶程度分出更级例1~5星级做星级评分
    互联网户情绪识例某电影酒店评动分类出极性者星级样区分出评差评许想进步里差处做更细致分析出现更细粒度基特征情感识例区分出手机屏幕
    者相机画质评价准确识级性考虑文客观语句分类提取出n观句子概括整评褒贬倾技术说客观混合文语料中抽取表示观性文
    实现基特征情感识需文提取出评价象需提取描述象特征然判断倾性描述特征极性特征词里表示描述象组成表示属性
    特征抽取获关题某方面具体描述汽车油耗操控性数码相机电池寿命口信息抽取相情感分析中特征抽取更加获结果求结构化某应中特征抽取情感取判断更加重需关注户具体意见例某款相机评价统计:
    相机:
    褒义:125<独立评价句子>
    贬义:7<独立评价句子>
    特征:画质
    衰义:123<独立评价句子>
    贬义:6<独立评价句子>
    特征:
    褒义:82<独立评价句子>
    贬义:10独立评价句子>
    事物观点直接观点观点两种
    直接观点:例款相机画质确点烂
    观点:例款相机画质camerax进行类情感分析时首先确定观点目标象谁例子中需指代消解确定款相机指款相机
    时候作者情绪事实起表达3寸液晶显示屏取景非常细致清晰户表达情绪具体特征分开
    典问题外针社会媒体情感分析中面更挑战例非题相关户中心容重中少部分引起关注讨甚进影响户观念行评估
    影响力预测否关注具重应价值
    外合理利社会媒体影响力值关注制造事端击竞争手恶作剧心理造谣生事收受商家处特定产品夸宣传典型误导公众行
    首先文中抽取描述象特征例针汽车户体验信息关操控性舒适性油耗饰配置等方面评价分抽取列出收集户关特征描述品牌时间段户群范围统计加较评估样数直接准确反映户消费情况市场反应次需评估户言价值预测关注度实务操作说重言事件时会引起广泛关注相关厂家时发现进种产品销售品牌形象具重影响言
    获取标注文倾评网站(豆瓣网卓越携程等)抓取评评星级评价代表褒贬度
    常见具语义倾词语词性示例表510示

    事实篇文章言表达情感正面负面通观语句体现出产品质量售价刚50元样客观语句然特征词表达情感果区分篇文章中观语句客观语句观语句进行特征选择会分类准确率提高
    互联网户搜索系统户够查找关象评价观点典型观点搜索查询包括两种类型:
    ①搜索关特定象象特征观点搜索户简单出象象特征
    ②搜索组织关特定象者象特征观点户需出观点拥者名字象名字
    判断户情绪取喜欢喜欢中性通量户感情
    取进行统计解户特定产品恶甚具体某特征(数码相机镜头电池寿命等)作出直接判断较
    开源项目LingPipe包含情感识实现LingPipe客观混合文语料中抽取表示观性文电影评分成正面评负面评价
    LingPipe实现两种分类问题:
    ①观(情感)句客观句识:
    ②正面(喜欢)负面(喜欢)评价
    年基情感文分类逐渐应更领域中例微软公司开发商业智系统Pulse够量评文数中利文聚类技术提取出户产品细节法产品信息反馈系统Opinion Observer利网络丰富顾客评资源评观容进行分析处理提取产品特征消费者评价出视化结果
    51 确定互联网户词褒贬倾
    词汇褒贬计算时会遇问题:发现判断潜褒贬新词断扩充褒贬词库样够续判断准确通常褒贬词库词汇覆盖程度意果穷褒贬词汇非易事发掘潜褒贬词汇亟解决难题义词褒贬性相反(宽恕姑息)根现褒贬词库义词库进行义词拓展确定极性相反词义相词汇褒贬
    方法仅够分析出词褒贬性够出该词褒贬强度义词褒贬扩展具效果具体步骤说明
    ①网络现褒贬词典中收集出定数量褒贬词汇(数量≥1000)作种子词库
    ②该词库进行词频统计分计算出单字褒贬词库中频率根公式计算出单字褒贬性
    ③根公式计算出词汇褒贬性
    具体公式:
    Pcifpcifpci+fnci
    Ncifncifpci+fnci
    中fpci代表字ci褒义词库中词频fnci代表ci贬义词库中词频PciNci分表示该字作褒义词时权重贬义词时权重
    褒贬词库数量定致述公式修正:
    Pcifpcij1nfpcjfpcij1nfpcj+fncij1nfncj
    Ncifncij1nfncjfpcij1nfpcj+fncij1nfncj
    中nm分代表褒贬词库中字符数
    SciPciNci
    式代表字ci褒贬倾
    p字符c1c2Lcp构成词语w褒贬倾Sw定义:
    Sw1p×j1pScj
    52 实现语句情感识
    识语句极性星级评分流程说明
    ①关键词匹配
    ②模板提取
    ③模板匹配
    ④计算极性星级评分
    词语分5类:
    直接表达出褒贬倾词汇包括名词形容词副词动词例:精彩荒诞
    表示程度副词例:非常
    否定词例:没
    表示转折连词例:
    某合成词分词结果拆开单独带情感整体带情感倾词组例:创世纪分词系统分成两词两词分出现带褒贬倾时出现时带定褒义倾样词载入史册等
    设计标注格式:[acdnvpi]表示词性[12345]表示类:[+#}表示极性(褒贬性)[12345]表示程度
    原始文:部电影精彩
    分词结果:r 部q 电影n d2 精彩a1 w
    标注结果:r 部q 电影n d2#2 精彩a1+2 w
    中d2#2表示程度副词身具褒贬性褒贬性影响子2精彩a1+2表示形容词具褒义情感情感程度2
    匹配模板关键词序列:d2# 精彩al+2
    模板匹配成功需根定规计算出整句文褒贬倾规设定需定程度卜体现出语法规否容易导致计算出整语句情感倾错误例程度副词出现中心词左侧出现中心词右侧(勺木系统文木褒贬倾计算规设定:
    ①根模板文中取出模板成分应词掉相关词组成序列
    ②第遍扫描序列找程度副词(类2)程度值模板中离1类词程度值(考虑副词位中心词前面者面里前双查找时副词前情况较前查找优先级高)具体处理标注程度3子15程度2子
    1程度1子05
    ③第二遍扫描序列找否定词(类3)碰第1类词褒贬性取反
    ③第三遍扫描序列转折词单位序列分成部分部分累加1类词褒贬倾值然转折词类型转折词相应权值口步型然应部分减弱转折型应部分加强部分相加文褒贬倾位计算部电影精彩褒贬倾值2终判定褒义评
    53 互联网户情绪表达
    531 极性情绪发现
    评情感强度反应网民参话题情感强度包含强烈感情评话题互联网户情绪表达系统需予更关注般称强烈感情评占较例话题极性话题相应称正面强烈感情评占较例话题正极性话题负面强烈感情评占较例话题负极性话题建立相应发现模型
    评情感素评分弱极性强极性两种强极性评评中占例作整话题极性
    极性强极性评数总评数100
    相应建立正负极性情绪发现模型:
    正面极性正面强极性评数总评数100
    负面极性负面强极性评数总评数100
    系统设定规模阈值日发现热点话题中极性情绪
    532 立情绪发现
    热点话题间完全类似话题中评者间关系融洽发表评具致倾性仅仅该题较感兴趣参讨话题中评者间体现出尖锐立性双方执词争休方前话题容表现出支持态度方前话题容表现
    出反态度评中体现出强立性表示种立性引入观点立度概念
    定义:参评网民间评倾性离散程度者说两种极性观点立程度称观点立情绪度
    观点立情绪度具特点:
    (1)极性评例成正极性评越立度越高
    (2)中性(关)评例成反中性(关)评越少立度越高
    (3)评倾程度相关倾性越明显立度越高
    立评双方数量规模相关双方规模越接立度情绪越高规模越悬立情绪度越低
    根述特点建立数学模型:
    引入表示:
    (1)倾性权重值Wk⋯W2W10W1W2⋯Wkk模型中倾性程度级数目Wk第k级倾性权重值
    (2)级评数目Nk⋯N2N10P1P2⋯Pk中帆表示负极性第级评数目Pk表示正极性第k级评数目
    情绪立度i1kWi×Ni+i1kWi×Pii1kNi+O+Pi×min⁡i1kWi×Nii1kWi×Pimaxi1kWi×Nii1kWi×Pi
    中第式分子加权倾性分母总评数目第二式相修正子正负极性加权值相等时达值1否果方评数目方观点立情绪度数值会较
    第六章 文总结
    年网络信息量户访问量前未速度增长着种形势T网络舆究竟会现实社会产生什样影响已广泛关注目前互联网环境舆研究已成系统科学社会物理学等领域研究热点互联网分散性中心性等复杂性质传统舆研究方法带挑战研究互联网信息传播趋势网络舆演化机制分析户情绪表达规律动机具重理实际意义
    文征网络舆情分析研究互联网户情绪分析作工作:
    (1) 通文表示篇文转换适合文分类算法输入形式文格式转换确定特征项需确定特征项表示文确定应特征权重
    文特征抽取选择质量文处理算法理想结果重影响:良文方式方法降低数存储需求提高算法运行速度理分析续实验表明分类关噪声届性提高分类准确率降低维数助新文提取特征时提高速度降维数更容易直观理解分类进行数视化展示综合方面选择合适文表示方法效降低文分类难度
    文特征抽取选样环节着直观意义付妥善结合起然值讨问题环节续环节说某种程度信息损失损失信息包含影响分类噪声信息包含厂部分分类影响信息需考虑具体取舍文分类身特征维数高训练样情况适合低维情况机器学刘优化技术直接进岁加剧种选择困难程度
    (2)先研究粒度计算文分类中应ID3算法基础进行扩充形式概念分析粒运算结合提出种通建立粒网络生成分类规方法进行分类利定义语言集L描述概念两方面:涵外延概念涵语言公式表示概念外延表示符合公式象集合构造粒
    粒网络建立顶粒搜索程粒提取较粒直产生属预定义类粒粒粒域中定义合取粒粒族形成定义合取粒组成覆盖粒网络建立分类规实现文情感识


    参考文献
    [1] F Fu L H Liu and L Wang Empirical analysis of online social networks in the age of Web20 [J] Physica A2008387675684
    [2] A Java X Song T Finin and B Tseng Proceedings of the 9th WebKDD and 1st SNAKDD 2007 workshop on Web mining and social network analysis San Jose California 2007 ACM 56
    [3] H Kwak C Lee and H Park What is Twitter a Social Network or a News Media [C] International conference on World wide web (WWW) 2010
    [4] M Cha H Haddadi R Benevenuto and K P Gummadi Measuring user influence in Twitterthe million follower fallacy [C] Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media Washington DC USA 20101017
    [5] B Suh L Hong P Pirolliand E H Chi Want to be Retweeted Laige Scale Analytics on Factors Impacting Retweet in Twitter Network [C] 2010 IEEE Second International Conferenceon Social Computing (SocialCom) California USA
    [6] D D Han J G Liu and Y G Ma Fluctuation of the Download Network [J] Chinese Physics Letters200825(2)765768
    [7]贺筱媛胡晓峰 网络信息传播动力学建模研究[J] 系统仿真学报20101125112514+2518
    [8]MatsumuraNet a1.The Dynamism of 2channel[J].Journal of AI&Society.Springer Ver—lag.200519(1):84—92.
    [9]吴彤耗散结构理组织方法研究□科学技术辩证法199815(6) 1924
    [10]单晓云耗散结构特征[J]广西师范学学报200220(1) 9496
    [11]张現明冷冰耗散结构生物医学方面应[J]医学物理19929(1) 4648
    [12]张铁男程宝元张亚娟基耗散结构企业理摘Bnisselator模型研究[J]理工程
    [13]苏凤环组织界性理元胞动机模型研究[D]四川西南交通学博士文2006

    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 21 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    互联网时代网络群体情绪的产生与引导

    随着互联网的深入发展,网络的集群化、部落化、圈层效应日益明显。伴随着后真相时代的到来,情感驱动成为网络舆论发展的重要驱动力,在网络集群的影响下

    8个月前   
    264    0

    互联网产品的广告模式与用户分群

    互联网产品的广告模式与用户分群1、盈利模式:广告年初跟章行聊到过广告模式的话题,中心思想是,现在搞个产品出来还用广告作为营收模式,是不是很土?是不是深陷红海?是不是因为模式不创新而缺乏竞争力?...

    10年前   
    486    0

    “互联网+”环境对会计信息质量的影响研究

    由于互联网发挥越来越重要的作用,每一个行业都面临着互联网新时代带来的快速挑战。近最近几年以来,我们国家支持国内企业与国际接轨,推动我国会计准则逐年向国际财务制度靠拢。有益于会计信息更快的传递,降...

    3年前   
    1072    0

    “互联网+”时代远程教育研究

    “互联网+”时代远程教育研究  摘要:  本文从目前远程网络教育的特点分析出发,针对了网络教育的教育资源重复建设、高质量资源缺乏、网络教育平台支持不力、远程教育的课程建设需要创新等特点,提出了...

    2年前   
    418    0

    “互联网+”环境对会计信息质量的影响研究

    由于互联网发挥越来越重要的作用,每一个行业都面临着互联网新时代带来的快速挑战。近最近几年以来,我们国家支持国内企业与国际接轨,推动我国会计准则逐年向国际财务制度靠拢。有益于会计信息更快的传递,降...

    3年前   
    619    0

    情绪

          纵观中外经典战役的案例,我们可以得到一个铁的定律,那就是,带兵的将领,谁的情绪先出现了波动,谁就露出了破绽,而战场形势瞬息万变,在破绽露出的一瞬间,也就注定了战役的成败。动物的世界...

    9年前   
    7104    0

    高质量的情绪文案_小众情绪文案

    高质量的情绪文案_小众情绪文案高质量的心情文案_小众心情文案  1、听故事的人总期盼惊险,故事里的人总盼望平安。  2、过分期盼是全部烂结果的起先。  3、现在的我,喜爱的是年龄,不喜爱的是自...

    2年前   
    655    0

    初中生厌学情绪研究实验方案

    初中生厌学情绪研究   实验方案 一、现阶段基本情况 中国儿童心理卫生专业委员会一课题组对两所中学抽取1667名学生进行调查显示:59.3%的学生有厌学情绪,心理问题的患病率为16.2%,...

    9年前   
    7368    0

    帮助托班幼儿情绪适应的策略研究

    帮助托班幼儿情绪适应的策略研究一、问题的提出两岁的孩子入园前主要生活在家庭中,对亲人的依恋感特别强,进入幼儿园意味着要从熟悉的环境转到一个完全陌生的环境。新环境对他们提出了新的要求,这种新的要...

    3年前   
    638    0

    世界卫生日的主题英语表达方法

    世界卫生日的主题英语表达方法  世界卫生日的主题英语表达如下文  world health day xx: international health security - xx: workin...

    12年前   
    549    0

    2015年网易用户研究员笔试题

    【笔试真题】网易2015校招-用户研究员 一、名词解释(20%)二、 扁平化设计拟物化设计O2O卡片分类情绪板因子分析田野调查日志分析 二、简答题(80%) 1. 说说深度访谈与焦点小组访谈的...

    9年前   
    502    0

    用户研究员简历-应届-Word简历模板

    OfficePLUS用户研究员/应届电话:18010001000邮箱:officeplus@microsoft.comQQ:3093242906微博: @微软OfficePLUS地址: 北京市...

    11年前   
    759    0

    做情绪的主人

    做情绪的主人 【主题】寻找缓解和消除消极情绪的方法,让积极的情绪主宰自己的生活,让学生拥有美丽心情,成就幸福人生。 【活动目的】     1、认知方面:认识消极情绪对学习、生活所带来的危...

    9年前   
    7408    0

    情绪类型自测

     情绪类型自测 口测试说明 回答以下问题,将每题相加的总和与结果对照,可以确定情绪状况和类型。 口测试题目 如果让你选择,你更愿意: A:同许多人一起工作并亲密接触。(3分) B:和一些人一起...

    10年前   
    533    0

    情绪类型自测

     情绪类型自测 口测试说明 回答以下问题,将每题相加的总和与结果对照,可以确定情绪状况和类型。 口测试题目 如果让你选择,你更愿意: A:同许多人一起工作并亲密接触。(3分) B:和一些人一起...

    9年前   
    545    0

    合理调节情绪

    心理健康教案 一课题理性调节情绪1课时年 月 日教学目标:  1.知识与技能:理解引发情绪的不是事件本身,而是你对事件的看法。学会改变想法改变自己的情绪。 2.过程与方法:通过活动...

    4年前   
    934    0

    互联网金融的风险防范对策研究

    我国近几年的互联网金融发展非常迅速,并且建立了各种各样特点的金融模式和全新的业务体系,并且交易规模也越来越庞大。现在我们的生活已经离不开互联网金融的参与了,互联网金融在我们的生活中也是一把双刃剑。

    3年前   
    988    0

    商业银行互联网金融发展问题的研究

    商业银行互联网金融发展问题研究 最近一段时间以来,在政府的包容支持和社会的广泛参与下,互联网金融市场蓬勃发展,总体上呈现三个方面的发展趋势。更多元、更繁荣。互联网金融的参与主体更加多元。阿里...

    7年前   
    3930    0

    互联网背景高校教学管理模式研究

    互联网背景高校教学管理模式研究摘要:近年来,互联网的飞速发展提升了高校教学管理工作的时效性,改变了高校教学管理工作结构。为此,高校应以互联网时代教育发展为核心,针对当前教学管理模式、教学适应性...

    1年前   
    317    0

    互联网企业并购中的财务风险研究

    摘 要互联网时代的发展为企业并购活动的拓展提供了载体,尤其在近五年我国企业并购活动的发展进入蓬勃增长新阶段,并购质量、并购规模、并购形式层出不穷喷涌而发,并购越来越不失为企业扩展业务、占领市场...

    3年前   
    724    0

    文档贡献者

    王***朝

    贡献于2020-10-13

    下载需要 21 香币 [香币充值 ]
    亲,您也可以通过 分享原创文档 来获得香币奖励!
    下载文档

    该用户的其他文档