质监站是什么单位(住建局质监站改革最新消息)
- 时间:
- 浏览:75
- 来源:奥一装修网
质监站灰色收入
前言通常是那些晦涩难懂的功能,这些功能可能会最破坏您的工作。本文共享一些与数据质量监视有关的内容。数据质量监控是一项在快速发展的业务中最容易牺牲和忽略的功能,但它确实至关重要。文章结构数据质量监控的重要性和价值将不再讨论。本文主要讨论以下三个主题:应该执行哪些监视内容以进行数据质量监视以及如何执行。数据验证将涉及数据仓库的其他一些知识点,请参考上一篇文章。什么值得您监视?我将数据质量分为三个部分来理解:监视警报。多个数据源专注于监视。这一点将得到扩展。多数据源是因为在大数据场景中我们有太多的开源组件。要进行选择,需要监视许多组件的数据,并且每个组件的数据都是不同的。如果这是要监视的统一主题,那么它就是一个重要主题。 1。监视这部分相对较大。总的来说,我将其分为以下几部分:日常监控,数据协调,性能监控。让我们分开谈。以下是我认为的一些更常用的监视内容:数据着陆监视数据下降监视:实际扩展是数据量阈值监视,如果小于一定数量,则会重复报警警报数据监视:很多表必须监视重复的数据,这一点很重要。关键指标监测数据按年和按月监测。这是一些常用的监视。正如我们稍后将提到的,我们可以创建一个规则引擎。以上都是坐在规则中。如果需要一张桌子,则需要伴随它。当然,脱机数据也需要数据协调。对帐方法有很多,例如与业务库进行比较。我觉得在性能监视中有几点要注意:查询性能,例如索引,不同时间段的查询响应速度,相同的原因,这些查询都需要注意,这可以通过任务监视来完成观测到的。数据读写的影响,机器故障的影响通常不是很在意,但是像这样,当写入数据实际上会影响读取数据时,您需要进行相应的监视和调整。其次,不用说需要警告警报,微信,短信和电话都是必需的。定期的电子邮件摘要警报也是必要的。通过考虑警报报告系统,可以显示很多警报。特别是对于监视诸如数据量趋势之类的内容,视觉比较更为有效。三,多个数据源在当前的大数据场景中,大量引入了各种开源组件,并且将不断引入新组件。
目前,我与这些常用的(,)、、、(主要构造)有更多联系,但不能排除引入图数据库(,)和这些组件的可能性。如何监视数据监视相对而言是后端系统,而不是外部业务系统。一般重要性可能会受到挑战。但是,这仍然值得一做。但是,可能有必要改变一些想法。如何快速实现和掌握核心功能点是一个值得思考的问题。这里将没有实现,只有一些设计思想,欢迎讨论。图片是一个完整的想法。我将首先分析一些个人理解的重点。稍后将详细分析。规则引擎:定义各种警报规则,可以是模板或某些特定算法。执行引擎:要执行各种规则,同时要考虑各种数据源的差异。元数据系统:数据质量监视最初被认为是元数据系统的一部分。我们将单独讨论它,但是在任何情况下,配置表的警报信息时,仍然需要将其与元数据系统结合使用。下面将分别分析这些组件。 1。规则引擎提供了几个典型示例:延迟数据到达,按年数据比较,数据趋势和一些自定义算法。这件作品的设计可以非常灵活,也可以临时开发一个简单的作品。这里有几点。我们将有一个表或一些配置文件来定义我们的规则。简单来说,例如,将数据与上一年进行比较,我们可以编写一个模板与历史数据进行比较,这非常简单,只需编写自己的模板即可。这个模板是最简单,最快的,我相信它可以解决大多数问题。注意:这非常重要,它可以节省我们的大部分工作,并且更稳定,但是可以满足较少的功能。需要与他人结合使用。这方面的主要工作负载应在执行引擎上,但应在规则引擎中进行设计。其次,执行引擎应该更重要。实现起来可能很简单,也可能很复杂。让我们来谈谈它。实际上,我极力建议一开始就可以通过这种方式进行粗略的监视。我们预先配置了大多数模板,然后配置了需要监视的表。可以考虑特定的执行引擎,或者尤其可以考虑大型任务。优点:简单,易于实施,可以满足大多数需求。缺点:例如弹性不足,
特别是在使用引擎时,它会非常慢。不稳定:某些监视将不稳定,例如重复数据监视。对于某些大表,很难以此产生结果。它通常会挂起,但是如果更换它会很慢。那么如何解决呢?好吧,如果解决了,我只有以下想法:合理的任务调度,通用集群可以容纳许多任务,正确调度监视任务更为重要。合理地替换执行引擎,下一节将提供解决方案。合理的任务依赖性(例如重复的数据监视)将不可避免地取决于数据是否到达。如果未达到数据,则无需执行重复的数据监视过程。它由元数据管理。所有表中的记录数记录在其元数据数据库中。这些记录可直接用于与数据量相关的监视,例如数据零下降,数据量按年,数据量趋势等。由于定制相对强大,因此在设计此片段时需要更灵活的体系结构。在此处将不会对其进行扩展,因为在公共数据字段中,前两点已经可以满足许多需求。在实施中,可能需要单独实施。但是相对而言,它不是很复杂。数据验证以前不需要数据验证,现在添加了这一部分。它更易于理解,尚未形成完整的知识体系。它主要意味着如何判断您的数据是否正常并且可以信任。这对于数据质量而言非常重要。该方法可以包括交叉验证,异常波动监视等。目前,我暂时不会共享它,稍后我会了解。请注意这里。总结本文主要分享一些与数据质量监视有关的内容。有一些一般的感觉,但是在弄清思路之后,许多实现也非常简单。如果您想变得简单易用,则可以在半天之内得到它。 。这里的主要思想不是编写特定的实现。毕竟,根据业务需要,实现的程度会有所不同。