工程XXXX书
总体设想
根调研目前南京市环保局已拥包括阳光政务系统〞12369 投诉系统〞排污申报收费系统〞污染应急指挥控制系统〞机动车排气监测系统〞污染源线监测系统〞环境空气质量监测系统〞危险固体废弃物理系统〞核辐射理系统〞套业务系统进行业务审批意见收集务指派排污申报收费等项业务功存问题系统政数法效享集成导致类数系统中存冗余致问题时系统间缺乏统数理模式导致数保存标准完整
采云计算物联网信息网格技术业务系统进行分析确定信息需原系统中抽取出进行集成然建立基云存储扩展具统标准数格式中心数库业务系统核心数抽取中心数库进行数集成利云计算台强处理力进行数处理挖掘中心数库开发建立包括企业信息全寿命理〔企业登记开始企业注销全程信息理〕数精确分析处置决策趋势分析等应系统预留数调接口终形成涵盖系统数支持全局信息理分析应智慧节环保〞全套解决方案物联网云计算台应系统该系统建立具强应示范性前瞻性
通节环保物联网智慧云效劳台应示范工程〞工程实施提炼物联网云计算台应标准江苏省全国具广泛示范推广意义节环保物联网智慧云效劳台应示范工程〞工程总体技术架构框图
异构终端虚拟台:
异构终端虚拟台感知层设备控制层设备构成通物联网传感器射频红外智仪表等设备采集环境数通泛承载网络输入信息融合处理台物联网控制层节环保效劳台系统根智处理层处理结果发终端设备继电器控制开关控制指令实现明空调电梯水等节减排控制
数资源集成台:
南京市环保局现环境监测系统数进行封装抽取步筛选索引压缩等集成处理输入信息智处理融合台业务应系统智数处理提供完整数支撑
泛网络承载台:
利江苏线泛承载网络技术根底设施物联网终端台数资源集成台云计算智处理台间提供总线式高效网络信息传输
数处理融合台:
数处理融合台云存储云处理云数理子台构成环境监测建筑群等应数提供统计智分析挖掘融合备份视化等处理效劳作节环保物联网进行智计算中枢脑
节环保效劳台:
节环保效劳台作总体架构层户提供建筑群节智慧监控效劳水环境智慧监控效劳土壤环境智慧监控效劳固体废物智慧监控效劳噪声环境智慧监控效劳核辐射智慧监控效劳气环境智慧监控效劳水资源循环利智慧监控效劳等
户:
节环保物联网智慧云效劳台〞广泛应政府企业家庭等行业类户具强通性示范性全省全国范围推广应
11云存储台技术系统方案
着互联网物联网技术应高速开展信息应系统数规模急剧扩计量存储容量单位通常已EBytes〔1EB1024PB〕计量文件数量更亿单位传统数中心高钱数分散存储模式已满足海量数规模快速扩张求海量数高高性低钱安存储处理已成行业信息化建设开展根必需求
云创存储拥具知识产权cStor云存储技术产品断积累更新款软件硬件相结合高科技系统产品国际知名云存储技术相具极高性价超低功耗高通安等优势广泛应量数存储需求场合〔安防广电电信互联网物联网银行等领域〕
111 cStor系统特性
cStor系统实现海量数云存储解决方案系统提供高吞吐量容量高性7*24时间断存储效劳拥重先进特性
超低功耗:软硬件体化设计单板功耗已降瓦数量级处国外先进水
限容量:提供海量数存储容量限根存储数需求灵活增减存储节点
灵活部署:系统动态伸缩根业务需增加减少存储节点支持户空间配额理
高性:元数存访问带宽饱利实现快速访问高吞吐量优越性
高性:高冗余备份机制提供7*24时间断障存储效劳
通性:系统支持POSIX接口标准应系统缝集成需行开发应系统操作文件系统完全样
高安:数集中存储云计算数中心数安统控制针户进行访问控制结合云查杀等防病毒软件确保安级数安
易维护:提供直观系统状态监控配置理子系统实时监控系统状态进行异常告警
112 cStor系统框架
块数存储节点:
文件固定进行分块默认64MB块称Chunk〔数块〕Chunk应索引号〔Index〕数块存储块数存储节点根性需求设置备份块数目实现块数存储节点冗余备份存储
元数理节点:
元数理节点文件名称文件属性数块信息等元数进行存储理
云空间理节点:
元数理节点块数存储节点构成云存储空间简称云空间通云空间理节点云空间虚拟限云数存储空间该节点提供针户端云空间理分配
户挂载客户端:
通户挂载客户端实现云空间映射文件系统目录兼容POSIX接口挂载操作文件系统样
配置监控中心:
提供针存储节点理配置状态监控告警功
113 cStor系统关键技术
低功耗技术:
采研发低功耗板功率已降瓦数量级处理国外业界先进水
元数分布式存储技术:
考虑热点数分布信息通海量元数效分散存储元数效劳器降低存储负载
采分级聚集机制存储数保证查询结果效性准确性
分析元数维属性信息语义特征相关文件组织相相组组构成语义 Rtree结构 实现维数复合查询
相关查询添加删更新操作限区域完成降低操作执行代价
低钱高性技术:
针数存储节点数读写访问特性没计算设计低功耗数存储节点板够支持16块硬盘实现硬件钱耗降低
针数块设定备份子数目数存储节点备份实现数高顽存
针目录级数进行备份子设置性级较高数相应备份子设置高达性求
高速发访问技术:
采发写入读出分布式数块确保网络带宽饱利确保读写访问速率
提供户级带宽效劳质量保证QoS确保高优先级应数读写速率
高速IO技术:
目前针传统硬盘万兆网卡条件单户吞吐率理达1GBs通针SSD(Solid State Disk)固态硬盘读写IO驱动优化技术实现访问存储空间时达更高存储读写吞吐率目前传统硬盘相较具低耗电噪音产生热量低耐震稳定性高耐低温等优点缺点目前价格稍高传统典型硬盘驱动器555℃范围工作数固态硬盘10~70℃工作工业级固态硬盘40~85℃甚更温度范围工作
数安控制技术:
访问控制支持户级数访问认证 存储空间级认证目录级认证确保数安访问控制
数完整性:通述高性技术确保数完整
加密安:数实现块级加密存储 时结合安加密软件云查杀病毒软件等数进行安保护
114 cStor系统设计谋略
元数存储设计谋略:
l 提供高速客户端响应元数存储元数理节点(Master)效劳器存中机进行持久化备份
l 元数理节点备双机方式提供高间断元数理效劳单机障时实现缝快速切换
l 考虑容量数存储时文件数量元数容量问题系统元数进行分布式存储采元数理节点进行元数理
l 支持灵活空间挂载根业务划分灵活业务数挂载分布式元数理节点数存储节点
数节点存储策略:
l 文件数定空间情况划分数块(chunk)数块分布存储数节点效劳器(DataNode)
l 块设置备份定份数块信息元数理节点理数备份时数节点进行串行复制数节点DataNode进行备份
高性策略:
l 元数理节点Master备份双机高实现方式
l 备份切换零延迟高速切换方式数操作访问做影响
l 数块数节点进行冗余备份
客户端访问策略:
l 挂载客户端通云空间理节点获取云空间
l 挂载客户端相应云空间元数节点Master建立通信连接元数操作获数块节点存储信息
l 挂载客户端相应数节点DataNode进行数读写
数节点DataNode根适宜备份策略相应数节点发送块数进行备份参考列图:
性容量支撑
元数节点存配置:
根计算测试256亿文件元数需存约80G1600万条元数Master元数存储需存空间约5G空间根该参考值进行Master元数节点数增减配置
系统支撑容量:
系统存储节点灵活伸缩容量限根业务需增减数节点Master元数节点
100 PB 100 * 1024 * 1024 * 1024 MB
假定文件25M文件 文件数约40亿元数需存约1280G假设Master提供存32G配置40Master元数节点应云空间满足100PBytes存储需求
假定文件250M较文件 文件数约4 亿元数需存约128G假设Master提供存32G配置4Master元数节点应云空间满足100PBytes存储需求
参见表:
容量需求
文件
文件数
需总存
Master机器存
Master集群数
100PBytes
25M
40亿
1280G
32G
40
100PBytes
250M
4亿
128G
32G
4
单Master元数节点应云空间言文件越支撑容量越
系统吞吐速率:
测试单户单客户端千兆网卡条件写入速率达100MB秒
理单户单客户端万兆网卡条件写入速率达1GB秒
12云数理台技术系统方案
CData云创存储开发基cStorChubby分布式存储系统互联网应数包括Web索引卫星图数等海量结构化半结构化数存储CData中实现CData没什全新技术选择适宜技术技术高效巧妙结合起恰恰难点CData方面数库类似真正意义数库面CData数模型系统架构实现数库技术进行全面介绍
121 cData设计动机目标
云创存储设计CData动机三方面
〔1〕需存储数种类繁物联网互联网应需处理数类型非常
〔2〕海量效劳请求云创存储运行着目前世界繁忙系统时刻处理客户效劳请求数量普通系统根法承受
〔3〕商数库法满足云创存储需求方面现商数库设计着眼点通性根法满足云创存储苛刻效劳求数量庞效劳器根法成功部署普通商数库方面底层系统完全掌控会期系统维护升级带极便利
CData开发团队调查种数存储需求确定CData设计应达根目标
〔1〕广泛适性CData满足系列应系统种数存储需求非特定产品存储求
〔2〕强扩展性根需时参加撤销效劳器
〔3〕高性客户说时候短暂效劳中断忍受CData设计重目标确保情况系统
〔4〕简单性底层系统简单性减少系统出错概率层应开发带便利
目标确定云创存储希巧妙结合种数库技术扬长避短终实现系统确实达原定目标面详细讲解CData122 cData数模型
CData分布式维映射表表中数通行关键字〔Row Key〕列关键字〔Column Key〕时间戳〔Time Stamp〕进行索引CData存储中数做解析律做字符串具体数结构实现需户行处理CData存储逻辑表示:
(rowstring columnstring timeint64)→string
CData数存储格式图212示[8]
图21 CData数模型
1.行
CData行关键字意字符串够超64KBCData传统关系型数库支持般意义事务保证行读写操作具原子性〔Atomic〕表中数根行关键字进行排序排序词典序图21CData数模型典型实例中行关键字直接存储网页址倒排CData巧妙设计样做少会带两处
〔1〕址域网页会存储表中连续位置利户查找分析
〔2〕倒排便数压缩幅提高压缩率
规模问题单表利数处理CData表分成子表〔Tablet〕子表包含行子表CData中数划分负载均衡根单位关子表容125节详细讲解
2.列
CData简单存储列关键字组织成谓列族〔Column Family〕族中数属类型族数会压缩起保存引入列族概念列关键字采述语法规定义:
族名:限定词〔family:qualifier〕
族名必须意义限定词意选定图21中容〔Contents〕锚点〔AnchorHTML中链接〕族cnnsi 锚点族中限定词通种方式组织数结构清晰明含义清楚族时CData中访问控制〔Access Control〕根单元说访问权限设置族级进行3.时间戳
云创存储效劳方网页检索户性化设置等需保存时间数数版必须通时间戳区分图21中容列t3t5t6说明中保存t3t5t6三时间获取网页CData中时间戳64位整型数具体赋值方式采取系统默认方式户行定义
简化版数理CData目前提供两种设置:种保存N版图21中数模型采取种方法保存新三版数种保存限定时间版方保存10天版数失效版会CData垃圾回收机制动处理
123 cData系统架构
CData云创存储外三云计算组件根底构建根架构图22示
图中WorkQueue分布式务调度器处理分布式系统队列分组务调度关实现云创存储没公开前面已讲cStor[9]云创存储分布式文件系统CData中cStor存储子表数日志文件CData需锁效劳支持CData选云创存储开发分布式锁效劳ChubbyCData中Chubby作
〔1〕选取保证时间效劳器〔Master Server〕
〔2〕获取子表位置信息
〔3〕保存CData模式信息访问控制列表
图22 CData根架构
外CData实际执行程中云创存储MapReduceSawzall改善性需注意两组件实现CData必需
CData三局部组成:客户端程序库〔Client Library〕效劳器〔Master Server〕子表效劳器〔Tablet Server〕三局部图22中相应表示图22出客户访问CData效劳时首先利库函数执行Open()操作翻开锁〔实际获取文件目录〕锁翻开客户端子表效劳器进行通信许具单节点分布式系统样客户端子表效劳器通信效劳器进行通信效劳器负载降低效劳进行元数操作子表效劳器间负载调度问题实际数存储子表效劳器
124 cData效劳器
效劳器作图23示
图23 效劳器作
新子表产生时效劳器通加载命令分配空间足够子表效劳器创立新表表合较子表分裂会产生新子表前面两种效劳器会动检测两操作效劳器发起较子表分裂子效劳发起完成效劳器动检测分割完成子效劳器需效劳发出通知系统设计初求达良扩展性效劳器必须子表效劳器状态进行监控便时检测效劳器参加撤销CData中效劳器子表效劳器监控通Chubby完成子表效劳器初始化时会Chubby中独占锁通种方式子表效劳器根信息保存Chubby中称效劳器目录〔Server Directory〕特殊目录中效劳器通检测目录时获取新子表效劳器信息包括目前活泼子表效劳器子表效劳器现已分配子表具体子表效劳器效劳器会定期询问独占锁状态果子表效劳器锁丧失没回应时两种情况Chubby出现问题〔然种概率确实存云创存储做相关测试〕子表效劳器身出现问题效劳器首先尝试获取独占锁果失败说明Chubby效劳出现问题需等Chubby效劳恢复果成功说明Chubby效劳良子表效劳器身出现问题种情况效劳器会中止子表效劳器子表全部移子表效劳器状态监测时发现某子表效劳器负载重时效劳器会动进行负载均衡操作
基系统出现障种常态设计理念〔云创存储产品基设计理念〕效劳器设定会话时间限制某效劳器时退出理系统会指定新效劳器效劳器启动需历四步骤[8]
〔1〕Chubby中获取独占锁确保时间效劳器
〔2〕扫描效劳器目录发现目前活泼子表效劳器
〔3〕活泼子表效劳器取联系便解子表分配情况
〔4〕通扫描元数表〔Metadata Table〕发现未分配子表分配适宜子表效劳器果元数表未分配首先需根子表〔Root Tablet〕参加未分配子表中根子表保存元数子表信息确保扫描够发现未分配 子表
成功完成四步骤效劳器正常运行
125 cData子表效劳器
CData中实际数子表形式保存子表效劳器客户般子表效劳器进行通信子表子表效劳器重点讲解概念子表效劳器操作涉子表定位分配子表数终存储问题中子表分配前面已详细介绍里略讲讲解问题前首先介绍SSTable概念子表根结构
1.SSTable子表根结构
SSTable云创存储CData设计部数存储格式SSTable文件存储cStor户通键查询相应值图24SSTable格式根示意图
图24 SSTable结构
SSTable中数划分成块〔Block〕块设置般说设置64KBSSTable结尾索引〔Index〕索引保存SSTable中块位置信息SSTable翻开时索引会加载进存样户查找某块时首先存中查找块位置信息然硬盘直接找块种查找方法速度非常快SSTable般户选择整体加载进存样查找起会更快
概念讲子表表中系列行集合系统中实际组成图25示
子表SSTable日志〔Log〕文件构成点需注意子表SSTable享说某SSTable会参子表构成子表构成表存子表重叠现象CData中日志文件种享日志说系统子表效劳器子表单独建立日志文件子表效劳器仅保存日志文件某子表日志享日志片段样会节省量空间恢复时定难度子表会分配子表效劳器般情况子表效劳器需读取整享日志获取应子表日志云创存储防止种情况出现日志做改进CData规定日志容键值进行排序样子表效劳器连续读取日志文件般说子表100MB200MB间子表效劳器保存子表数量十千等通常情况100左右
图25 子表实际组成
2.子表址
子表址查询常碰操作CData系统部采种类似B+树三层查询体系子表址结构图26示
子表址记录元数表中元数表元数子表〔Metadata tablet〕组成根子表元数表中拟特殊子表元数表第条记录包含元数子表址时Chubby中文件存储根子表信息样查询时首先Chubby中提取根子表址进读取需元数子表位置元数子表中找查询子表子表元数外元数表中保存利调试分析信息方事件日志等
图26 子表址结构
减少访问开销提高客户访问效率CData缓存〔Cache〕预取〔Prefetch〕技术两种技术手段体系结构设计中常子表址信息缓存客户端客户寻址时直接根缓存信息进行查找旦出现缓存空缓存信息时情况客户端需图26示方式进行网络回通信〔Network Roundtrips〕进行寻址缓存空情况需三网络回通信果缓存信息时需六网络回通信中三确定信息时外三获取新址预取次访问元数表时仅仅读取需子表元数读取子表元数样次需时次访问元数表
3.子表数存储读写操作
数存储方面CData做出非常重选择数存储划分成两块较新数存储存中称存表〔Memtable〕序缓里较早数SSTable格式保存cStor中种技术数库中常云创存储做出种选择实际运行效果证明云创存储选择然胆正确
图27中出读写操作差异性做写操作〔Write Op〕时首先查询Chubby中保存访问控制列表确定户具相应写权限通认证写入数首先保存提交日志〔Commit Log〕中提交日志中重做记录〔Redo Record〕形式保存着系列数更改重做记录子表进行恢复时系统提供已完成更改信息数成功提交写入存表中做读操作〔Read Op〕时首先通认证读操作结合存表SSTable文件进行存表SSTable中保存数
图27 CData数存储读写操作
数存储中重问题数压缩问题存表空间毕竟限容量达阈值时旧存表会停止压缩成SSTable格式文件CData中三种形式数压缩分次压缩〔Minor Compaction〕合压缩〔Merging Compaction〕压缩〔Major Compaction〕三者间关系图28示
次旧存表停止时会进行次压缩操作会产生SSTable果系统中种压缩话SSTable数量会限制增加读操作SSTable数量SSTable显然会影响读速度CData中读操作实际写操作更重CData会定期执行次合压缩操作已SSTable现存表进行次压缩压缩实合压缩种SSTable次性压缩成SSTable文件压缩定期执行执行次压缩保证压缩数彻底删回收空间保证敏感数安性〔敏感数彻底删〕
图28 三种形式压缩间关系
126 cData性优化
述种操作已实现CData功根功时候符合户惯者执行效率较低功CData身已进行优化包括缓存享式提交日志利系统变性外CData允许户根操作根底系统进行优化局部读者介绍户重优化措施实际技术手段已数库方法云创存储具体应CData中
1.局部性群组〔Locality groups〕
CData允许户原存储起数列族单位根需组织单独SSTable中构成局部性群组实际数库中垂直分区技术应结合图22实例CData保存网页列关键字中户网页容感兴趣通设置局部性群组容列会诸网页语言网站排名等分析信息拟感兴趣列设置群组中局部性群组图29示
通设置局部性群组户感兴趣容某户说量信息需读取较会常读取局部性群组户SSTable文件直接加载进存明显改善读取效率
2.压缩
压缩效节省空间CData中压缩应场合首先压缩构成局部性群组SSTable中选择否局部性群组SSTable进行压缩CData中种压缩局部性群组独立进行然样会浪费空间需读时解压速度非常快通常情况户采两步压缩方式[8]:第步利Bentley & McIlroy方式〔BMDiff〕扫描窗口常见长串进行压缩第二步采取Zippy技术进行快速压缩16KB扫描窗口寻找重复数程非常快压缩技术提高子表恢复速度某子表效劳器停止需面子表移子表效劳器恢复效劳转移前进行两次压缩第次压缩减少提交日志中未压缩状态减少恢复时间文件正式转移前进行次压缩次压缩第次压缩遗留未压缩空间进行压缩完成两步压缩文件会转移子表效劳器
图29 局部性群组
3.布隆滤器〔Bloom Filter〕
CData户提供种称布隆滤器数学工具布隆滤器巴顿·布隆1970年提出实际长二进制量系列机映射函数读操作中确定子表位置时非常布隆滤器速度快省空间处绝会存子表判定存布隆滤器缺点某情况会存子表判断存种情况出现概率非常带巨处相缺点忍受
实际运行CData完全满足需求应切益优良构架恰技术选择时云创存储断CData进行系列改进通技术改进新特性参加提高系统运行效率稳定性
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档