当VMware软件定义数据中心分析工具介绍

发布时间：2021-09-09 18:11:36 阅读：次来源：发卡厂家

VMware软件定义数据中心分析工具介绍

在接下来的一段时间，笔者会分享VMware的分析工具，vROps和LogInsight。由于篇幅有限，我会以连载的方式，先介绍vROps（预计会有三篇），再则表示接线极性正确介绍LogInsight。

分析工具用于分析数据。谈到数据的类型，可以分为结构化数据和非结构化数据。在VMware的SDDC解决方案中，两种数据我们都有相应的分析方法。针对与结构化数据，主要指的是虚拟化环境中的：性能、告警、事件类的信息，通过vROps与vCenter进行通讯进行收集，经过分析后，用报表的形式展示给用户。对于非结构化数据，主要指的是日志，使用LogInsight与vCenter进行通讯，收集信息，然后进行智能化分析，方便用户查看和追溯。本篇我先介绍vROps。

一 vROps是什么

vROps全称是vRealizeOperationsManager。谈到vROps是什么，相当多的人第一反应它是一个监控工具，其实这样说并不十分准确。

严格来讲，vROps是一个分析工具，vROps中展示的所有和虚拟化相关的数据，都来自于vCenter。其实，vCenter以配置管理为主，本身具有简单的监控功能，对于相对复杂的场景，无法满足监控运维要求，这些工作就需要vROps去完成。这也是很多客户问过我的问题：vCenter本身已经可以总虚拟机监控，还要vROps干什么。

举个例子，如果将vCenter监控到的信息，比作我们体检的时候，每个体检项的具体指标和结果（总之非医科人员看不懂），那么vROps就是最终体检报告首页呈现的体检结果总结和医生的建议。因此，vROps真正的意义在于，可以直观地向IT管理员展现生产环境中所有虚拟机的运行情况，并且给出相应的建议。因此，vROps节省的是运维管理成本，并且保证分析的过程是标准化的。

二 vROps的指标

衡量一个对象（如虚拟机）的运行情况，vROps有三大指标：运行情况（或健康）、风险、效率。同时用不同的颜色表示此项指标的状态。分为四个颜色：绿色、黄色、橘黄色、红色颜色越深，问题越大。

三大指标并不是vROps拍脑袋拍出来的，而是每个指标又有其子指标，几个子指标共同决定了这个大指标的状态。子指标一共有9个，加上大的指标，一共13个。正是这12个指标，共同决定了对象在vROps中的数值。

与运行情况或健康相关的子指标有：

负载、异常、故障（下图前三个）

与风险相关的子指标有：

剩余容量、剩余时间、压力、合规性

剩余容量

剩余时间

与效率相关的子指标有：

可回收容量、密度

可回收容量

三 vROps的架构

vROps6之前的版本，它的名字是vCenterOperationsManager，简称vCOps。vCOps的架构是两个虚拟机，一个做分析用，一个做UI用。UI是我们实际登陆vCOpsWeb的界面。

下图是vCenter中，vCOps的两个虚拟机。

vROps6的架构发生了较大的变化，不再使用分析和UI两个虚拟机，合并成一个。

为了保证vROps的高可用，可以将vROps配置成集群模式。需要注意的是，集群模式不是必须的，非集群模式，一个虚拟机就可以完成所有的工作。在安装vROps的appliance的时候，vROps虚拟设计者可以象搭积木1样轻松组建1个丈量系统和构造自己的仪器前面板机的配置（CPU，内存，磁盘）会根据我们选的虚拟化规模而不同。

vROps的一个集群最多有四个角色，可以配置四个虚拟机，分别为：

Master/MasterReplica

DataNode

RemoteCollector

其中Master和Replica是主备两个节点，负责vROps的主要工作。两个节点的信息是同步的，当Master节点出现故障，Replica将会变成Master，继续提供服务。当Master修复以后，变成Master的节点将会再度变回Replica。

DataNode：

数据节点主要的工作是：负责收集和处理数据。如果有RemoteCollector的的话，数据收集工作则由RemoteCollector完成。

RemoteCollector：

RemoteCollector的作用主要是：收集数据并且把它们提交给DataNode。

在试验中，笔者配置了vROps四个节点的集群：

在集群中，我们可以手工地在集群中做再平衡操作（平均分配负载）：

四阀值的问题

我们知道，告警的发生，是当对象的某一个指标触发了阀值以后发生的，对于监控和系统系统而言，基线很重要。大多数监控工具采用的都是静态阀值，而vROps采用的是动态阀值。那么采用动态阀值的意义是什么？

简单的举个例子，大家就明白了。用北京地铁13号线的容积率举例子：早晚高峰的时候，很多人坐地铁。在那个时候，基本上爆满，如果用容积率去衡量，假定90%是正常，也就是告警的基线。而到中午非高峰期，我们做地铁，或许还有座，在这个时候，容积率假定40%是正常的。因此，如果我们做一套监控系统来监控13号线的容积率，那么早晚高峰和中午的阀值一定是不同的。否则，以90%作为基准，那么该监控系统基本不会告警，如果以40%作为基线，那么该系统将会频频告警。

大致解释一下vROps动态阀值产生的原理：vROps部署以后，它会先用一周的时间收集对象的数据，然后花三周时间进行修正，由此得到了基线。因此，如果双方产学研战略合作暨国家大学科技园禹城分园集中签约仪式以来客户要将vROps投入生产使用，必须要在正式使用一个月前部署好，开始监控虚拟化对象。

五自定义部分

vROps6相对于vCOps的进步，在于有很多地方客户可以自定义。我们可以自定义症状、自定义建议、自定义警报、自定义报告、自定两年前义仪表盘等等。

实际上，在vROps中，能自定义的部分很多，但需要注意的是，行动是不能自定义的。但我们可以将行动和建议绑定在一起。

在下面的案例中，将展示一个创建告警的完整记录。即：

创建两个症状=》创建一个建议，并将建议关联一个行动=》创建一个警报，包含之前创建的症状和建议。==》触发和查看警报。

实际上，我创建的这个警报是，包含两个症状:1.虚拟机Demand的CPU大于60%的时候。同时mandCPU大于70%。两个症状都满足的时候，触发警报，并且给出的建议将是：修改虚拟机CPU限制，并且建议是增加虚拟机CPU的数量。

自定义一个症状：

它表示：当虚拟机Demand的CPU大于60%的时候，这个情况是一个症状，它叫 WXYmediumcpudemand

定义好以后，我们发现会有虚拟机触发这个症状。

需要注意的是，此时，WXYmediumcpudemand还只是个症状，还没有告警与他关联。因此在alerts中还看不到相关的信息。

创建第二个症状

创建一个，当HostDemandCPU大于70%的时候触发的症状。

创建一个建议

创建一个建议，并且与已有的Actions相关联。此处我创建了两个建议，第二个是增加虚拟机CPU数量，创建方法相同，就不再重复粘贴了。后面步骤实际上用的第二个建议。读者请勿疑惑。

创建一个警报

一个警报可以包含多个征兆。

对象选择虚拟机：

定义警报的级别和位置：

选择对应的症状，此处的症状，就是我最开始创建的两个：

此处选择建议，也是我事先创建好的。

截止到此时，告警已经创建好。

查看告警

我们可以看到，告警被触发，并且出现在健康的项目下。

这样，一个完整的警报就创建好了。

官方

VMware中国

VMware中国研发中心

VMware招聘

V记云科技联盟成员

乐生活与爱IT（love_life_and_IT）

软件定义存储与虚拟化

叶毓睿VMware存储架构师

亨利笔记（henglibiji）

容器和云原生应用

张海宁，研发中心首席架构师

最终用户计算（CHINAEUC）

桌面与应用虚拟化

吴孔辉，VMware架构师

疯云时代（crazycloudtime）

基础架构和应用服务

臧铁军，VMware架构师

大卫分享（david-share）

SDDC与IT管理

魏新宇，VMware金融行业售前

IT那些事儿（IT-Review）

尤贵贤，资深技术顾问

商丘订做职业装
商丘定制职业装
商丘定做职业装
商丘设计职业装