确定服务器性能下降时,通常的可疑因素是 CPU、内存和磁盘。监控内存使用情况对于保证最佳性能至关重要,高内存利用率会导致关联进程的性能降低。任何设备的性能都取决于其 CPU 运行状况。影响 CPU 运行状况的一个重要因素是 CPU 温度。使用理想的硬件监视器监控工作站、服务器和其他设备的 CPU 温度有助于及早识别潜在问题。

CPU 使用率监控工具

OpManager CPU使用率监控功能,可实现CPU性能监控,CPU健康检查,CPU资源可用性监控,CPU速度检查等,既能监控Linux又能监控Windows 的CPU使用率监控控制台。

CPU 使用率需要监控的内容

监视 CPU 使用情况意味着监视以下内容:

  • CPU 利用率:监控网络设备的 CPU 利用率
  • CPU 插槽:监控 CPU 芯片的物理插槽编号
  • CPU 速度:监视此处理器的内部速度(以兆赫为单位)
  • 空闲时间:监视采样间隔内处理器空闲的时间百分比
  • 特权时间:在特权模式下花费的非空闲处理器时间的百分比
  • 处理器时间:监视所选单个进程的 CPU 使用率
  • 用户时间:在用户模式下花费的非空闲处理器时间的百分比
  • 处理器队列:显示等待在所有处理器上运行的进程线程(程序执行单元)的数量
  • 驱动器大小:监视物理驱动器大小(以兆字节 (MB) 为单位)
  • PSU 冗余:监控电源的冗余状态
  • 页面错误:处理器处理错误页面的总体速率
  • CPU 进程计数:监视正在运行的进程数

设置基于阈值的警报来监控CPU使用率

OpManager的CPU使用率监视器使IT管理员能够为每个CPU监视器设置阈值,以便在处理器时间达到限制或磁盘利用率超过指定限制时通知他们CPU使用限制。可以根据违规次数或严重性设置阈值。这些警报可以作为通知发送,并通过短信、电子邮件、Slack 等发送。

CPU 使用率报告

OpManager提供了100多个内置报告。使用报告功能并根据用于测量 CPU 使用率的任何参数,可以手动生成报告或计划在指定时间自动生成报告,以显示在特定时间范围内CPU利用率,CPU效率和接口错误最高的接口或设备。可以向下钻取这些指标,以从报告中了解更多信息。报告可以保存为PDF,HTML或通过电子邮件发送。

内存监控工具

内存利用率随时间推移稳步增加可能表示内存泄漏。内存泄漏是指进程在启动时分配内存,但在结束时未释放内存。内存泄漏会随着时间的推移降低设备性能。通常,当内存不再可用时,设备将变得无响应。

内存监控软件有助于跟踪可用的可用内存。跟踪内存使用情况,以便可以检测、分析和更正使用情况的意外变化。内存监控工具借助高度可定制的报告监控主动内存使用情况,以深入了解内存使用情况。

内存利用率监控

OpManager的Windows内存监控过程使用SNMP,WMI或CLI协议监控Windows和基于Unix的服务器上的内存利用率。并允许管理员设置内存阈值,以便在机器的内存利用率达到预先确定的临界水平时收到警报。

内存监控工具监控指标

  • 释放物理内存
  • 内存利用率
  • 页面错误
  • 页面读取
  • 页面写入
  • 每秒页数
  • 可用的页面文件内存大小
  • 可用物理内存
  • 可用虚拟内存

使用OpManager,管理员可以:

立即开始监控内存利用率

  • 查找与近十几种服务器类型关联的内存利用率监视器。
  • 使用快照页面中的直观拨盘一目了然地发现高内存利用率。
  • 查看当前内存利用率以及可用内存总数。
  • 直接从快照页面微调监控配置,并更快地缩小问题范围。

通过基于阈值的警报提前解决问题

  • 指定阈值,并在内存使用量达到限制时收到通知。这使您可以采取适当的步骤来避免数据丢失和停机。
  • 配置可用可用内存的递增或递减阈值。
  • 通过在实际触发警报之前指定允许的违规数,向阈值配置添加更多智能。也可以实现批量阈值配置。
  • 通过指定重置值来清除警报,从而避免错误警报。

快速排除和解决内存资源故障

  • 使用进程诊断即时排除故障,以检查进程的资源利用率,并在需要时终止违规进程。
  • 通过查看实时内存利用率报告快速评估性能,并确定行动方案。
  • 快速查看服务器上的进程监视器,以检查特定进程使用的内存。

生成报告分析内存利用率

  • 从拨号图向下钻取报告,以查看所需时间窗口的详细性能统计信息。
  • 观看报表上的第 95 个百分位数读数,并根据趋势调整阈值。
  • 快速提取过去 30 天或过去 7 天的性能报告,并评估资源升级需求或分析趋势。
  • 使用一目了然的报告评估设备级别的内存利用率。
  • 在任何给定时间,都可以使用服务器运行状况报告查看前 N 台服务器上的内存性能问题。

跨服务器监控内存、磁盘和 CPU 指标

  • 根据服务器需求为其他资源指标添加更多内存、磁盘或 CPU 监视器。
  • 快速找出导致应用程序在资源利用率正常的情况下运行缓慢的原因。实际出错的指标可能是处理器时间百分比、队列长度或影响应用程序性能的关键内存监控指标(可能是快速侵蚀的可用物理内存)。
  • 使用 WMI 脚本或 CLI 命令或仅查询相关的 SNMP 变量,为这些资源定义更多自定义监视器(具有应用表达式的选项)。

CPU监控指标:

  • CPU 利用率
  • CPU 插槽
  • CPU 速度
  • CPU 温度监视器
  • 空闲时间
  • 特权时间
  • 处理器时间
  • 用户时间
  • 处理器队列
  • 驱动器大小
  • 电源冗余

内存监控指标:

  • 可用物理内存
  • 页面错误
  • 页面读取
  • 页面写入
  • 每秒页数
  • 可用的页面文件内存大小
  • 可用物理内存
  • 可用虚拟内存

磁盘监控指标:

  • 磁盘利用率
  • 磁盘读取
  • 磁盘写入
  • 磁盘空间不足计数
  • 磁盘分区监视器
  • 磁盘队列长度
  • 可用磁盘空间(以 GB 为单位)
  • 可用磁盘空间离子(以 MB 为单位)
  • 已用磁盘空间(以 GB 为单位)
  • 已用磁盘空间(以 MB 为单位)

OpManager 的硬件监视器会仔细检查Windows和基于Unix的服务器上的这些系统资源,并尽早发现性能瓶颈。