【用友UAP技术大讲堂】主数据的历史数据梳理

摘要:通常主数据梳理工作的对象为每个主数据所对应的副本数据。数据梳理的手段,可以采用数据清洗引擎与人工干预两种方式。下面就用友UAP主数据平台中的数据清洗引擎与大家分享。 主数据的历史数据梳理工作,看起来很简单,涉及的理论知识很少。但是恰恰是这部分工作占据了主数据管理项目实施工作的大部分时间。如何借助工具软件,提高数据清洗工作效率则成为了该阶段工作的重点内容,也是保证主数据管理项目利润率的关键点。 通常主数据梳理工作的对象为每个主数据所对应的副本数据。目的是为了得到一份完整的、没有重复的,且与现实状况相符的数据集合。如果副本数据与主数据有不一致的地方,则需要进行修改,使其与主数据保持一致。 至于数据梳理的手段,可以采用数据清洗引擎与人工干预两种方式。下面就用友UAP主数据平台中的数据清洗引擎与大家分享。 这是用JFrame做的,可完全实现轻量化。现在用的MySql数据库,如果考虑安装问题可以用一个内存数据库或者直接用文件。清洗的时候,个人感觉直接用文件做会比较快。 最开始的是主数据建模,因为主数据模型比较简单,所以直接用模型描述了以后,存在数据库中的主数据注册表中了。然后写了一个描述引擎,把所有的主数据都转化为内部的MDMdescrip对象和DataContener对象,这样就可以直接在页面使用了,不用重启。 数据管理 默认的主数据管理页面,实现简单的增删改功能。 Kettle副本数据导入 主数据注册的时候有一个副本数量,系统默认为每一个副本生成以后存储空间。只要通过kettle工具将副本数据导入到清洗工具后台数据库中就可以了。 排重算法设计 排重算法设计是亮点,有两个阀值,大于第一个阀值就算数据一样。小工具就自动处理了。第一个和第二个之间则需要人工手工干预一下。小于第二个就算不同的数据。可以为每个比对字段设定权值和算法。现在的算法还比较少,最近刚刚增加了一个带分词和语意判断的。以后会根据项目需求随时添加,比如对邮件进行比对,[email protected][email protected]就应当是一个人,这个属于特殊情况,所以要在项目现场开发,以后通用的算法还可以有参数设定。这个算法库以后是这个工具的最大价值。 对数据的排重,在此次我做的这个项目中,三千条数据大概用了48秒。而且所有的数据是一次读到内存中的。 本身排重结果的处理应该分成两种,一种是生成主数据,一种是副本数据与主数据一致,这里只做了第一种。其实大部分情况是把处理报告导出来交给用户去做,涉及到数据的问题都很关键。最后用户处理好后,导入主数据系统就可以使用了。 以上是本人在项目实施时所做的数据清洗引擎。这也是用友UAPMDM平台中的一部分功能。UAPMDM能够对业务系统中的各类数据进行整理、过滤、合并、分析。帮助企业实现:数据标准化;数据质量保障;数据共享;为BI或者集成应用提供可靠的基础服务。通过将数据合理利用,实现业务系统价值的最大化。



Powered by BCH 中文站 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024