【虹科技术分享】一般故障排除过程

虹科Allegro 网络万用表故障排除工作流程

虹科Allegro网络万用表是用于网络故障排除设备和网络分析的诊断工具,只需点击几下就能检测出网络中的错误和问题。它们由网络管理员部署以分析网络流量,既可以实时分析当前流量和事件也可以进行回溯分析。它能提供高粒度和详细的分析。因此,可以快速识别网络故障、性能瓶颈和数据包丢失等问题。

但是经常有人问,该如何使用虹科Allegro 网络万用表(通用)进行故障排除,以及它的工作流程是什么样子。

大家会这么问是理所当然的,因为Allegro的无限可能性对某些东西来说可能是压倒性的。

在本教程中,我们将介绍您在使用 Allegro 网络万用表时可能会感兴趣的几个点。

基础知识

首先对屏幕上实际呈现的东西进行基本了解。

虹科Allegro Packets 为您提供了”顶级用户”和”质量”仪表板。使您可以在故障排除方面有基本的见解且可操作。

两者都可以在控制菜单的顶部找到,在Web界面的左侧。

上图:绿色框中突出显示的是"热门用户"和"质量"

热门用户

“TOP用户”筛选是开始进行常规故障排除工作流的好地方。

TOP用户筛选为您提供有关网络中正在发生的事情的更多信息。

在此页面上,您可以找到趋势图形和表格,里面描述了在所选时间间隔内遍历网络的前5个IP,前5个MAC和前5个协议的总数据包和字节数。

表格和图表之间进行切换也非常容易,只需单击小部件标题旁边的相应图标即可。

在排除故障或更好地了解网络行为时,大多数时候,看的更宽一点或着眼于更大的图景,更大的趋势会更加有意义。

要使用虹科Allegro 网络万用表完成此操作,您可以在 Web 界面的右上角点击切换 -可查看的时间帧。

例如,我们将可见的时间范围从 1 分钟实时更改为”1 天”或”最后一天”实时。

现在,我们在1天的时间范围内对热门用户有了清晰的概述。

对于相同的时间范围,例如”实时1 天”和”最后一天”,这两种视图模式将显示完全相同的图形。

但是,在表格视图(如下图所示)中,两者之间的实际差异将会变得非常明显。

从上图中可以清楚地看出,LIVE-view将显示TOP Talker信息-对于选定的LIVE时间范围-(在本例中为10分钟),

附带基于每秒数据包数和每秒比特数的实时流量指示器。

选择”过去 10 分钟”查看模式时,TOP 发言者将在所选时间范围内附带数据包和字节的总流量。

这有助于更快,更轻松地识别通信关系。

下载按钮在整个虹科Allegro Network 万用表 Web 界面中随处可见,可让您快速轻松地访问预过滤的 Pcap 文件。

使用 pcap 下载按钮,可以从 Allegro Network 万用表环形缓冲区中追溯(回溯)提取 pcap 文件。

下载按钮还可用于启动预过滤的实时捕获。

例如,单击 IP 192.168.178.101 旁边的下载按钮,将启动已预先过滤的捕获,以仅在选定的时间间隔内捕获包含该 IP 的流量。

同样,这样的时间间隔可能是过去的,因为 Allegro Network 万用表能够从其数据包环形缓冲区中提取请求的数据包(如果记录了特定的时间范围和流量)。

IP 详细信息页面

如果您需要有关某个IP的非常详细的信息,请转到该特定IP的IP详细信息页面。

这很容易完成,在整个虹科Allegro Network 万用表 Web 界面的任何地方只需点击一个IP。就将带您进入该特定IP地址的IP详细信息页面。

IP 详细信息页面可让您在选定的时间范围内一键访问各种网络性能信息。

您可以在IP详细信息页面上浏览的不同选项卡在下图中以绿色突出显示。

如您所见,根据每个IP查看和调查QoS和协议的(错误)使用非常容易。

在 IP 详细信息页面中,您还可以快速轻松地查看连接/流级别的通信关系,甚至可以深入了解该 IP 的 TCP 统计信息。

质量仪表板

对于质量和性能评估,虹科Allegro 网络万用表质量仪表板是一个很好的起点。

所有最重要的图表(与高级别质量和性能监视/故障排除相关)都收集在此页面上。

突发分析

Allegro 预定义质量仪表板上的第一个图表表示”突发分析”。

由于虹科Allegro 网络万用表支持数据测量间隔(采样率),详细程度低至 1 毫秒,因此您可以识别链路在很短的时间内 100% 饱和的情况。

显然,微突发可能是网络性能问题的根本原因(部分原因)。

除了 Allegro 数据包之外,大多数监控和故障排除解决方案都无法识别这一点,因为他们采用的是”低分辨率”数据采样(即 5 分钟≥)。

响应时间

第二个图表为您提供有关 TCP 和 HTTP、SSL、DNS 和 DHCP 的全局响应时间的趋势信息。

单击”应用程序”,将带您进入响应时间概述页面,其中分别显示了HTTP,SSL,DNS和DHCP的趋势响应时间图。

从这里,很容易识别并放大网络上发生的与时序相关的问题。

在上面示例的 1 天时间范围内,HTTP 和 DHCP 清楚地显示了响应时间与整体中位数线大幅度偏差的实例。

您可以通过单击并按住鼠标左键,选择尖峰,然后释放鼠标左键来选择图表中的此类峰值。

根据自己的喜好放大后,单击图表标题(例如DHCP),这将带您进入该特定的详细信息页面。

由于您已经放大到图表上的特定时间范围,因此此页面现在将仅显示您在图表中选择的时间范围内发生的客户端/DHCP-服务器关系。

同样在此页面上,您将找到一个下载按钮,用于简单(追溯)提取Pcap,该按钮经过预过滤后仅包含DHCP和BOOTP数据包。

UDP 抖动和数据包丢失

接下来的两个图表为基于UDP的协议RTP和Profinet提供了趋势和可操作的见解。首先是描绘随时间变化的抖动的图表。

抖动不良会对业务关键型生产服务和 VoIP/统一通信服务产生非常负面的影响。

从此图表中,很容易快速识别质量问题,例如在使用VoIP的网络中抖动超过20ms的情况。

TCP 重新传输/数据包丢失

接下来的两个图形提供有关网络中 TCP 数据包丢失的趋势可见性和信息。

TCP转播在所有网络中都可以看到,这是转播量 – 更好的是以百分比表示的转播比率 – 表明您的网络中是否存在问题。

这就是为什么以绝对数字和比率显示TCP重播的图形呈现给您的原因。

作为参考;

对于有线基础设施,通常认为高达2%的转播率仍然是可以的。

然而,在无线基础设施中,高达10%的重传非常普遍,被认为是运行良好的无线网络。

“TCP 零”窗口

为了识别应用程序性能问题和/或服务器容量问题,”TCP 零窗口”图是一个非常非常强大的工具。

原因如下,TCP 零窗口数据包由客户端或(大多数)服务器发送,每当它无法以最佳方式处理即将到来的流量时。

无论出于何种原因,其接收缓冲区都已满,并且设备将启动每个发送方以减慢速度 – 通过TCP零数据包。

TCP 零窗口数据包计数高(连续)的几个原因可能是:

相对于 NIC 链路速度,迎面而来的流量过多

应用程序速度太慢或有问题,因此无法跟上进度

存储速度太慢或有问题,因此无法跟上。

IP 统计信息(所有 IP)

如果您正在查找基于多个或所有 IP 地址的网络信息,或者希望从 IP 的角度开始故障排除,那么 L3 IP 统计信息页面就是您的理想选择。

通过输入(部分)IP 或解析名称信息,可以快速找到(感兴趣的 IP)。

搜索单一 IP 或 IP 范围时,请向 IP 添加子网掩码以获得最佳结果。

例如,搜索192.168.178.1将为您提供一个过滤列表,其中包含所有IP匹配192.168.178.1xx。要缓解此问题,请添加子网掩码,如下所示 192.168.178.1/32。

在”IP 统计信息”页面上,也可以仅显示与某些(质量)指标匹配的 IP。

要使用”复杂过滤器”开始过滤,请在搜索栏中以”(”开始您的输入。然后,作为帮助的一种形式,将显示下一个可能的输入。

通过在搜索栏中使用”复杂筛选器”,您可以根据以下参数缩小显示的 IP 数量:

“name”, “ip”, “packets”, “bytes”, “pps”, “bps”, “firsttime”, “lasttime”, “tcppackets”, “udppackets”, “tcppayload”, “tcpRetrans”, “tcpRetransRx”, “tcpRetransTx”, “category”, “vlan”, “mpls”, “outermpls”, “innermpls”, “interface”, “validconnections”, “invalidconnections”, “tcpZeroWindowRx”, “tcpZeroWindowTx”, “ipgroup”, “mtu”, “mtuRx”, “mtuTx”, “tcpMissedData”, “(”

在复杂筛选器中键入时,允许以以下形式使用和/或/必须包含/完全匹配运算符:AND,&&,OR,||,==,===