我们想听听你的意见!帮助我们深入了解 Ansible 生态系统的现状。
参与 Ansible 项目 2024 年调查

使用 Ansible 和 Dynatrace 实现自愈应用

使用 Ansible 和 Dynatrace 实现自愈应用

当今 IT 环境的规模、复杂性和快速变化令人难以招架。对于 IT 组织来说,确保这些现代微服务环境的性能和可用性是一项持续的挑战。

推动这一变化趋势的原因之一是采用 IT 自动化来进行配置管理和持续运营。在本博文中,我们想重点介绍 IT 自动化带来的可重复且一致的结果,并探讨将 Ansible 自动化扩展到应用程序监控平台 Dynatrace 后所能实现的目标。

今天的监控

考虑到当今 IT 环境的规模、复杂性和快速变化,传统的应用程序性能和可用性监控方法在大多数运营团队中仍然是必要的且普遍存在的。应用程序性能监控 (APM) 平台用于检测可能影响客户体验的瓶颈和问题。

然而,仅靠监控并不足以始终确保您的应用程序保持最佳性能。当检测到问题时,APM 平台旨在向操作员发出有关问题及其根本原因的警报。然后,运营团队可以商定纠正措施,并在受影响的系统上实施这些措施。

如果可以自动化常见或耗时的纠正措施呢?

Dynatrace 自动化修复

Dynatrace APM 平台提供 AI 驱动的微服务环境及其底层基础架构的全栈性能监控。Dynatrace 通过自动基线分析,深入了解您的 IT 运营,并检测环境中哪些区域不满足性能或错误率阈值。

一旦 Dynatrace 检测到影响真实用户的异常系统行为,就会创建一个问题警报,将具有相同根本原因的所有事件分组在一起。

演示应用程序触发了问题警报。Dynatrace 检测到响应时间下降,影响了 54 个真实用户和超过 300 个服务调用

Dynatrace Problem Alert

一旦 Dynatrace 在环境中检测到问题,就会向第三方系统发送问题通知,通知它们有关这些事件的信息。Dynatrace 允许用户将 Ansible Tower 集成到通知系统中,允许操作员从 Dynatrace 问题通知中启动 Ansible Tower 作业模板。

Ansible Tower 现已作为 Dynatrace 通知系统中的一项特色第三方集成提供

Ansible Tower integration with Dynatrace

这种集成还允许传输检测到的问题的上下文信息。这意味着 Ansible 作业模板可以利用这些额外的变量来进行上下文感知的更细粒度修复,以执行预定义的剧本。

指定 Ansible Tower 作业模板 URL、凭据和可选的自定义消息。可以保存该通知,并在 Dynatrace 在您的环境中检测到问题时立即触发。

Ansible Tower job template

由发送到 Ansible Tower 的 Dynatrace 问题通知触发的作业模板执行

Dynatrace executes Ansible Tower job

请注意,额外的变量将与作业模板一起传递,旨在消除操作员提供此上下文信息的必要性。

自愈应用程序的实际应用

一旦您的 Ansible 作业模板到位,并针对促进修复任务进行了自定义,并且 Dynatrace 中的集成已设置完毕,自愈应用程序的工作流程如下所示

  • Dynatrace 监控您的环境,并在问题影响真实用户时检测到问题
  • Dynatrace 向 Ansible Tower 发送问题通知
  • Ansible Tower 启动指定的作业模板以开始修复
  • 问题解决后,Dynatrace 会关闭问题

如您所见,Dynatrace 与 Ansible Tower 的集成旨在简化 IT 管理自动化任务的设置。此外,将 Ansible Tower 集成到 Dynatrace 问题通知工作流程中,通过触发由 Ansible Tower 在每次检测到问题时执行的预定义的可自动化 Ansible 作业模板,从而实现了自愈应用程序。