• 1. 数据生命周期管理 理论与实践
    • 2. 目录一、工行数据管理的总体情况 二、数据生命周期管理理论与方法 三、工行数据生命周期管理实践
    • 3. 工行数据管理的指导思想指导思想构建合理的数据管理组织架构和数据架构体系,做好数据治理,促进各应用系统信息高度共享,充分发挥数据价值,为经营决策提供科学依据 做好信息标准化管理,提高数据有效性、一致性和规范性 做好数据质量管理,确保数据的准确性 做好数据生命周期管理,实现数据从产生到销毁的全过程规范化管理 做好信息安全管理,确保信息不被泄露 一、工行数据管理的总体情况
    • 4. 构建了分层的数据架构体系数据采集层数据集成层指标模型层管理操作层交易信息客户信息管理信息外部信息数据仓库风险集市数据指标绩效等经营管理系统营销等业务管理系统信息获取信息整合信息加工信息展现信息反馈及应用绩效考核客户关系管理客户经理各级管理人员高级分析用户 (灵活查询) (数据挖掘)模型用户统一操作界面资本管理、操作风险管理等风险管理系统灵活查询一、工行数据管理的总体情况
    • 5. 数据采集层 采集的数据主要包括客户信息、交易信息、管理信息和外部信息,这些信息有些是客户和行内人员手工录入,有些是从外部批量导入。。 客户信息、交易信息主要从对客和自营业务系统收集,包括存贷结算基本业务、银行卡业务、代理与投资业务、金融市场业务、信贷管理与单证业务、托管业务、投行业务等系统。 管理信息主要从内部管理系统收集,包括资讯平台、制度园地、人力资源管理、分支机构管理、办公管理等系统。 外部信息主要包括监管机构提供的信息(如征信信息、风险提示信息等)、行业信息、外部报价信息等。一、工行数据管理的总体情况
    • 6. 数据基础层(建立数据仓库和数据集市) 为了对客户行为和业务管理进行科学分析和预测,需要建立集合各类业务数据为一体的数据仓库,进行面向各类主题的数据统计和挖掘分析,为市场营销和管理决策提供科学依据。 工商银行在2002年完成数据大集中之后,就已经意识到数据对于银行经营管理的重要作用,在姜建清董事长等行领导的关心指导下,开始着手数据仓库建设工作。10来年,工商银行数据仓库建设稳扎稳打,已成为各类业务数据集中存储的重要载体和关键基础平台。 一、工行数据管理的总体情况
    • 7. 指标模型层 指标模型层主要包括指标和模型两部分 指标部分目前主要建立了面向绩效的全行指标库,包含总行、分行的指标需求,支持分行自行定制分行特色指标。 手工类衍生类模型类 科目定制类基础类手工类衍生类 科目定制类全行指标分行特色指标全行指标库分行定性指标、同业指标 基于总行基础指标进行衍生 基于科目定制分行指标 分行客户归属规则、网银业绩归属规则 一、工行数据管理的总体情况
    • 8. 指标模型层(模型部分) 模型是实现各类共用指标成熟的计算方法,主要用来规范和统一各类指标的计算,达到方法共享和提高数据一致性的目的。 目前已经实现的模型包括如下内容: 客户评价模型 产品定价模型 绩效评估模型 风险计量模型 财务预算模型 。。。 一、工行数据管理的总体情况
    • 9. 管理操作层 主要面向客户服务和内部经营管理,包括客户营销、资本管理、资产与负债管理、信用风险管理、操作风险管理、市场风险管理、绩效考核管理、内部审计与合规管理等。管理操作层的基础数据主要来自各个业务系统,有些统计指标类数据是经数据仓库加工提供。 为满足日常经营管理,提供了以固定报表为主的综合报表统计平台。 为便于突发性和临时查询需要,提供了基于数据仓库的灵活查询功能。 为规范对外数据报送,建立了统一的对外数据报送平台。 一、工行数据管理的总体情况
    • 10. 一、工行数据管理的总体情况信息标准化管理 工行信息标准化工程 工行从2010年开始启动工行信息标准化工程,目标是建立 “定义统一、口径统一、名称统一、来源统一、参照统一”的工行信息标准,使各个应用系统内部、及系统间的数据交互能够遵循相同的数据标准,从而显著降低信息使用成本,增强信息的一致性、标准性、权威性和共享性。 目前已建立700多项基础信息标准,900多项指标标准。
    • 11. 一、工行数据管理的总体情况信息标准化建设总体目标2.有效性:信息准确度高、理解上不存在歧义。1.完整性:涵盖客户、机构、产品、帐户等银行全部重要信息3.一致性:做到“五统一”。5.开放性:行内标准与国家标准、国际标准可翻译、可对照。4.规范性:制度规范、流程控制、系统管理等。6.共享性:标准化信息在工行内共享使用。总体目标:通过统一信息标准制定、发布使用、制度约束、系统控制等手段,实现工行信息的完整性、有效性、一致性、规范性、开放性和共享性管理,提高工行信息化水平。
    • 12. 4 来源统一对于已经标准化的数据,其来源应该有且只有一个2 口径统一对于有数量表达的信息标准,计算口径必须要统一3 名称统一各信息项应该采用统一规范的命名 定义统一同一信息项的业务含义和所适用的业务场景保持一致15 参照统一工行标准和行外各类标准的衔接应建立明确的对应关系一、工行数据管理的总体情况信息标准化建设原则 信息标准化是“统一语言、统一计量”的过程,遵循“五统一”原则
    • 13. 数据质量管理体系数据质量管理制度《数据质量考核办法》及实施细则 《数据质量管理平台业务管理办法》 《数据质量技术规范》数据质量考核监督纳入分行内控评价体系和行长绩效考核 建立数据质量定期通报机制 操作风险管理委员会定期审议一、工行数据管理的总体情况数据质量管理
    • 14. 3、做好规范管理 完善制度、规范流程、系统硬控制,把好数据质量“流转关”。2、督促问题治理 部署检查规则,实现问题数据发现、分发、治理、监督、考核闭环管理,把好数据质量“治理关”。1、从源头治理 从数据录入、内部处理入手,把好数据质量“入口关”。一、工行数据管理的总体情况数据质量管理流程
    • 15. 数据安全管理 为了加强数据安全管理,工行制定了《数据管理办法》和《数据管理办法实施细则》,明确了各环节的数据安全管理要求,并采取了一些技术手段进行硬控制。 数据安全的主要管理要求: 使用生产数据必须经过申请和审批,开发测试环境使用生产数据必须进行数据变形。 涉及敏感信息的生产数据的传输必须采用加密处理或使用专用邮箱、专用FTP服务器传输等 。 对生产用户进行严格授权管理,防范非授权访问生产数据 。 对生产数据建立和实施严格的备份机制。对数据保存介质进行分类登记,及时进行清理和转存。 一、工行数据管理的总体情况
    • 16. 目录一、工行数据管理的总体情况 二、数据生命周期管理理论与方法 三、工行数据生命周期管理实践
    • 17. 二、数据生命周期管理理论与方法背景情况 早期银行的金融产品相对较少,主要是以存贷汇为主,且数据是以省(市)为单位分布存放,数据量相对较少;此外由于还还没有数据集中分析挖掘的需求,日常处理对象主要是短期之内的数据,时间跨度小,处理的数据规模相对可控。 随着各家银行实施了数据大集中,集中存放和处理的数据量急剧增加,例如工行目前核心银行数据已达150T,数据仓库存放的数据已达185T;同时随着各类业务的快速发展,银行每天都在产生大量的数据,并需要对这些数据进行分析挖掘,系统资源开销和运行效率都面临着越来越大的压力。 为控制在线数据规模、保证应用系统健康高效运行,对数据从创建到最终销毁的生命周期进行全程管理显得越来越迫切 。
    • 18. 数据生命周期管理的目标 通过规范数据的生命周期管理,提高数据的整体管理水平。 优化数据存储结构,有效控制在线数据规模,提高生产数据访问效率。 提高系统资源使用效率,确保系统安全、稳定、高效运行。 做好历史数据管理,为客户服务和经营分析提供数据支撑。二、数据生命周期管理理论与方法
    • 19. 二、数据生命周期管理理论与方法数据生命周期的基本原理 数据访问频度与数据量的变化会随着时间的迁移而呈反比例变化利用随时间积累,数据访问频次变化和数据量累积变化成反比这一客观规律,对数据根据访问频次进行数据价值评估,对大量低价值信息采取低成本的数据保存手段,使数据的价值和存储的技术和管理相匹配,进而大幅降低整体数据存储成本;
    • 20. 数据生命周期管理的总体原则 在数据的整个生命周期中,不同阶段的数据其性能、可用性、保存等要求也不一样。 通常情况下,在其生命周期初期,数据的使用频率较高,需要使用高速存储,确保数据的高可用性。 随着时间的推移,数据重要性会逐渐降低,使用频率会随之下降,应将数据进行不同级别的存储,为其提供适当的可用性、存储空间,以降低管理成本和资源开销。 最终大部分数据将不再会被使用,可以将数据清理后归档保存,以备临时需要时使用。二、数据生命周期管理理论与方法
    • 21. 数据生命周期管理流程二、数据生命周期管理理论与方法说明: 在线归档阶段(也被称为近线阶段):将访问频度较低且应用需求不高的数据从应用中分离出来,保存在另外的磁盘并提供相应的查询; 离线归档阶段:将访问频度较低且应用需求不高的数据从应用中分离出来,保存在磁带、光盘及低端磁盘上。离线归档后不提供信息联机访问接口,如有相应的查询要求,需特定的查询工具或将归档数据导入相应系统
    • 22. 数据生命周期管理流程 数据各生命阶段的管理策略数据生命阶段管理策略 在线阶段 (数据产生与使用阶段)永久保存:数据从产生开始一直在生产系统中保存,此类数据不需要进行清理。 保存一段时间后清理:数据被标记为失效或过期后在系统中保存一段时间后进行清理。 归档阶段 (数据备份与保存阶段)在线归档:查询频度仍相对较高的数据,通过数据库形式保存数据,用户仍可以通过系统在线查询;部分数据通过在线归档一段时间后进入离线归档阶段。 离线归档:查询频度相对较低的数据,通过光盘或磁带等介质保存数据,用户无法在线访问,需通过恢复光盘或磁带介质。 销毁阶段 (数据被销毁至消失)物理删除磁盘和磁带上的数据,销毁光盘介质。二、数据生命周期管理理论与方法
    • 23. 目录一、工行数据管理的总体情况 二、数据生命周期管理理论与方法 三、工行数据生命周期管理实践
    • 24. 建立了数据生命周期管理体系 工行数据生命周期管理从组织建设、制度规范、系统工具、日常管理各方面开展相关工作。 制定了全行统一的《数据生命周期管理技术规范》,并配套发布了一系列数据清理工具,根据规范制定的策略定期进行清理,并将清理的数据归档到历史数据管理应用中。 三、工行数据生命周期管理实践
    • 25. 三、工行数据生命周期管理实践《数据生命周期管理技术规范》总体情况 《规范》建立了统一的对所有数据的有效期管理的具体标准、方案、指引和制度,是数据管理的指导方针,提高了数据管理工作的统一性、系统性、全面性和科学性 《规范》改变了以往根据磁盘容量和依赖于技术人员经验的状况,使全行有了科学统一的数据管理标准,减少了因数据保留时间不当而出现应用风险,使中国工行的各类业务系统可以更好、更稳定地为广大客户提供优质地服务。
    • 26. 三、工行数据生命周期管理实践规范主要内容 借鉴国际先进数据模型,对工行的各应用系统数据进行提炼和分类,在数据生命周期的各个阶段制定了有效的管理策略 。 将工行的应用系统按产品线(共20类)进行划分,并在此基础上对各产品线的数据类别进行了确认;规定了各产品线各类数据的数据有效期,建立了完整的数据有效期管理工作规范体系,确立指导工行各类数据的基本管理原则和具体应遵循执行的各种办法
    • 27. 三、工行数据生命周期管理实践规范主要内容 数据清理原则 业务处理层联机交易数据不应直接进行物理删除操作,要通过相关标志位、最后更新时间等字段实现逻辑删除,对于无法实现逻辑删除的联机交易数据,应重新设计以满足逻辑删除要求;物理删除要通过本规范制定的数据生命周期按统一策略进行清理。 数据进行清理时,各应用应记录清理的相关信息(包括清理的表名、清理时间、清理数据量)。 数据清理时,应考虑清理数据对系统的影响,比如考虑重建索引、重组等相关事项。
    • 28. 三、工行数据生命周期管理实践规范主要内容 数据清理周期 对于进行批量清理的数据,按固定周期进行清理; 对保留时间在1月以内的数据,清理周期不宜超过1月; 对于保留时间在2年以内的数据,清理周期不应超过保留时间的1/2; 对于保留时间在2年以上的数据,清理周期不应超过1年。
    • 29. 三、工行数据生命周期管理实践数据生命周期规范的执行 工行应用系统的建设从需求编制开始就关注数据生命周期的管理,在系统设计、开发、测试、运维各个始终按照规范要求,有效贯彻数据清理工作的精神。主要数据表的生命周期管理策略制定所有新建和修改表的数据生命周期管理策略的等级和修改清理工具和程序的编制、策略的导入以及测试数据清理工作的执行、清理信息的收集、分析和展现清理工作的确认和检查设计人员设计、开发人员开发、测试人员运维人员清理后数据的查询、展现和导出。技术管理人员
    • 30. 三、工行数据生命周期管理实践数据生命周期规范的执行(续) 清理工作的确认和检查 工行会定期对数据生命周期管理相关工作进行检查、确认。 对于数据生命周期管理策略,每季度会对设计情况、数据生命周期管理策略填写情况进行抽查,确保策略的正确性; 每月在进行新的数据表的清理工作时,会对涉及的表的生命周期管理策略进行确认,以确保数据清理的正确、合理。
    • 31. 三、工行数据生命周期管理实践系统工具 工行开发了相关系统和工具,确保可以根据规范制定的数据生命周期管理策略进行统一执行; 工行在各个环节注重数据生命周期管理,并对工具和系统不断进行优化,提升数据清理工作成效; 对清理后的数据陆续纳入系统,实现清理数据的在线归档,并提供有效查询。 工行拟建立清理集中管理平台,实现清理信息的有效收集,提供分析和统计。
    • 32. 元数据及软件资源管理系统(SEAS) SEAS实现了填写的数据生命周期管理在提交前会自动进行策略校验,对于不符合逻辑的策略会进行提醒要求修改; SEAS实现了数据表新增时各项信息的审批功能,在系统控制的基础上再增加人工确认,进一步确保信息的准确性。 三、工行数据生命周期管理实践
    • 33. 电子影像及文档服务平台及综合档案管理 电子影像及文档服务平台是工行各类事中、事后类业务系统电子影像档案的统一存储平台,并为各类业务产生的各种非结构化数据(主要是影像资料、word、excel)进行集中保管,并提供了查询服务。 综合档案管理系统存储的结构化数据主要为非结构化数据的查询索引服务,与电子影像及文档服务平台进行配合,完成非结构化数据的归档、存储、查询、调阅等功能; 综合档案服务于有非结构化数据的业务处理系统和相应业务部门,实现业务处理的非结构化数据的统一管理并提供了查询服务。三、工行数据生命周期管理实践
    • 34. 数据清理工具与清理集中管理平台 数据清理工具从企业数据的角度,对各个平台(主机和开放平台)各种类型的数据库(DB2,ORACLE,SAS,TERADATA等)应用数据进行统一的数据生命周期管理,建立一套通用的、参数化的、基于数据驱动的数据生命周期管理系统,分为主机平台一个版本和开放平台多个版本,数据清理工具作为技术支撑产品线下的一个工具被部署到各个数据库系统 ; 数据清理工具采用参数化控制,通过在参数表中设置清理条件、清理日期等,实现下载和清理数据的可控性、灵活性,为后期的升级维护工作提供了很大的方便。 清理集中管理平台将从各数据清理工具收集清理信息,作为后续统计和分析的依据和基础。 。三、工行数据生命周期管理实践
    • 35. 三、工行数据生命周期管理实践历史数据管理平台 保存各应用系统超出在线保存期限的结构化数据,提供归档阶段在线查询和离线查询功能。 客户通过各种渠道可访问客户账户历史明细;内部柜员查询内部登记簿数据等数据; 满足审计署、人民银行、银监会、税务等监管机构对工行进行的审计、监管及反洗钱协查的数据查询需求。
    • 36. 谢 谢!