利用流和数据包数据对网络性能进行故障排除

使用流量和网络包数据进行故障排除

畅通无阻的网络性能是许多NetOps活动的核心目标,其中之一是通过使用数据包和网络流来排除网络性能问题。当流和数据包被汇总和分析时,网络洞察力可以引导团队找到更好的解决方案。对于那些每次性能下降都依赖重启系统的小企业来说,流量洞察力可能会引导他们了解他们的网络使用情况,然后找到网络问题的根本原因。拥有关键业务服务的大型企业可能已经在利用流量和数据包来监控他们的环境,即使只是使用初级的数据包分析工具。
流和数据包是收集修复性能问题线索的基础数据源(更多来源请参考事件、日志和系统日志)。为了从流经网络的大量数据包中发现线索,先进的网络性能监控和诊断(NPMD)软件收集重要的网络指标和数据,并对其进行分析,然后将企业内部、虚拟和云环境中的网络活动的准确表示可视化。这种程度的网络可见性对于IT团队解决网络性能和安全问题至关重要。

什么是流和数据包数据?

网络流量监控的思想本质上是对通过路由器的所有网络流量进行统计、记录和分析,实际上,创建网络使用情况的汇总模型。就像快速通行收费站以电子方式计算汽车和记录使用情况一样,流量监控也是如此。
同时,深度数据包检测 (DPI)是检查每个数据包的有效负载内容的过程,以确定是通过拒绝该数据包还是允许其通过网络来对该数据包采取行动。DPI 的第三个选项是被动地收集有关哪些流量正在穿越网络的信息。
数据包捕获存储网络数据包的镜像副本,并使用取证搜索和过滤,当出现新的性能、安全性或取证事件时,可以稍后在特定时间范围内检查存储的镜像副本。
为了实时了解网络流动,主要的实际挑战是必要的计算和存储容量的限制,以跟上要处理的网络数据的速度和数量。这是因为网络流量的数据包捕获副本会消耗大量存储空间,并且通常仅在几周甚至几天后才会被清除,以便为更多副本创造空间。这意味着,如果实施了数据包捕获、深度数据包检查和流量监控,那么 NetOps 和 SecOps 团队将拥有最相关的数据来解决当前的事件,离事件时间越远,其根源的可能性就越大- 导致线索消失(通过复制数据包捕获副本修复的情况)。
数据包包含线索。整个文件不会在整个网络中以一份形式传输。相反,网络消息被打包,然后通过互联网和其他连接路由,在目的地重新组装。每个数据包通常被组织成三个段,无论其大小如何,即header、payload和footer。当数据包流经网络路由器时,它们的头部被读取并基于 5-7 个数据包头部属性进行“指纹识别”。

如果路由器无法识别流经它的数据包的指纹,则将在流缓存中创建具有该指纹的新流条目。该条目将包含一个 5 元组,即上面列出的主要数据包属性,以及用于计算数据包流量及其字节数的变量。每次与指纹匹配的数据包通过时,相应的流条目计数器都会增加,从而有效地创建一个总结该数据包流的记录。然后将缓存的流数据通过网络周期性地输出到流收集器和流分析器,将来自各个路由器的不同的输出流数据汇总在一起,进行可视化分析。
今天的大多数路由器都具有某种品牌的 xFlow 导出功能,允许将流数据从路由器发送到收集器和分析器。Netflow 是事实上的行业流协议,起源于 Cisco 设备并以该协议为特色,其他流行的协议包括 IPFIX、J-Flow 和 sFlow。
仅从上面的那几个数据包属性就可以理解大部分网络行为。

  • 源地址和目标地址告诉谁是流量的发起者和接收者
  • 端口和服务等级说明正在使用的应用程序及其流量优先级
  • 设备接口告诉设备如何利用流量
  • 通过统计数据包,可以确定总的流量流量
  • 时间戳可用于及时放置流并确定其速率
  • 应用程序和网络延迟提供有关每个事务所需时间的度量

流和数据包-它们如何衡量?

可以在网络性能仪表板上可视化流量——说明了使用 NetFlow 数据的端到端网络流量可视化。
如下图所示,流和数据包数据是单个源数据包的互补方面——通常被称为网络监控中的最终真实来源。流通过总结在端点之间传输的数据包来显示Top可见性,而数据包捕获和 DPI 提供了对数据包内部内容的更深入的详细信息,阐明了实际通过网络的数据。将两者结合为 NetOps 和 SecOps 团队提供了巨大的价值,但是,每个团队都有其局限性和缺点。
因为流数据是总结而不是深入细节,所以流数据在诊断和排除配置问题或错误条件方面受到限制。他们擅长的是通过应用程序、协议、域、端口以及源和目标 IP 提供对流量的洞察。这意味着大量流量的带宽问题突然被分解为一个一个流。这可以快速有效地突出带宽占用。此外,流带宽表示伴随着哪些设备正在运行这些 hogs,以及是应用程序还是设备本身在进行 hogging。这种级别的可见性对于根据网络和用户行为制定使用策略非常有用。
通过数据包捕获存储的网络流量的镜像副本,可以重新创建历史流量,并且可以在数据中发现详细的线索,以解决隐藏在细节中的更具体的技术问题,例如错误配置的证据、外部入侵或硬件故障。
此外,通过深度数据包检查,数据包会根据一组由 NetOps 和/或 SecOps 团队创建的定制规则进行判断(过滤)。通过将某些流量列入白名单或黑名单,例如仅允许关键协议,或基于来自先前已知为威胁的数据库的匹配签名拒绝数据包模式,DPI 可用于入侵检测系统 (IDS) 和入侵防御系统(IPS) 以防止蠕虫、病毒和间谍软件进入网络,并在出现网络问题时提醒团队。

 

使用监控软件解决网络性能问题

对网络性能问题进行故障排除是一个找出相关数据线索的过程,这些线索可以导致对潜在问题的合理评估。有时问题很简单,例如,路由器可能会变得拥塞,但问题不一定是设备故障,而是了解网络流量使用情况可能会导致重新配置修复,将业务关键流量优先于个人使用流量,从而导致过度消耗带宽资源。如果监控网络流量,可以很快得出这个结论,如果监控软件能够清楚地可视化流量或生成警报,则可以更快地得出结论。

 

底层网络问题越复杂,就越需要协议和数据包分析方面的侦查和专业知识。通过使用 NPMD 和网络检测和响应 (NDR) 软件,找到常见问题的答案相当容易,只需深入到可视化的问题区域,让软件嗅出潜在问题并提供反馈,有些还可能建议潜在问题修复,其他人可能会为您提供详细的图表和表格,以进行您自己的评估。流图中的橙色圆圈显示了组织整体网络中的拥塞部分,单击橙色圆圈将深入到故障区域。

可能有几个罪魁祸首就会导致网络滞后。例如,网络拥塞的根本原因可能来自网络设备故障或配置错误、内部带宽使用过多或外部 DDoS 攻击。如果没有分析流量和数据包数据的综合工具,尝试和错误可能是网络运营商唯一的替代故障排除方法。

  • 利用流和数据包数据的网络性能监控软件共有的有用功能可以为网络管理员提供有关解决其网络性能问题的线索。这四个提供了对网络的非凡洞察力:
    拓扑视图对于理解底层物理网络非常重要,因为当今的网络更加复杂和动态,融合了不同的技术,如广域网、SD-WAN、WiFi、远程站点、数据中心和多云服务,因此尤其难以排除故障。
  • 流路径分析功能提供设备、接口、应用程序、VPN 和用户的端到端可见性。通过关联跃点和流量,监控软件可以将网络和应用程序性能叠加到拓扑视图上。综合起来,这些模型将性能与底层物理网络相关联,强调网络基础设施中的弱点。
  • 应用程序监控通过了解跨多个网段、域和结构的应用程序层的数据包数据来识别应用程序使用情况。这不仅有助于了解网络性能,而且可以直接解决用户体验问题并减少负面业务影响。
  • 入侵检测和预防监控对于检测可能发生的事件的迹象并试图阻止它们很有用。在更高级的网络中发现,作为预防网络性能下降的主动响应,IDS 和 IDP 系统依靠读取数据包并应用多种检测技术、基于签名的方法、基于异常的方法和状态协议分析来检测问题即时的。

使用监控软件解决网络性能问题

  • 拓扑视图
    • 识别需要升级或更换的基础设施组件
    • 使用自动设备发现维护实时全面的设备清单
    • 主动识别阻塞点
    • 比较不同的性能指标
  • 流路径分析
    • 根据 IP 地址跨端点识别可能的路由、跃点和网络延迟影响
    • 识别由负载平衡引起的问题
    • 识别由路由引起的问题
  • 应用监控
    • 建立可用于监控异常流量水平的性能基线
    • 发现有关如何在应用程序级别使用网络的最深刻见解
    • 识别允许使用的策略弱点
  • 入侵检测和防御监控
    • 根据其签名(基于签名)识别已知的攻击或攻击类型
    • 识别与网络行为规范的偏差(基于异常)
    • 识别与协议使用规范的偏差(状态协议分析)
    •  

这表明从流和数据包数据推断的端到端可见性有助于在最关键级别进行网络故障排除,并为进一步监控跟踪应用程序性能的集成以及对业务目标产生重大影响的复杂用户体验奠定基础。

使用LiveNX进行网络故障排除

LiveNX基于流(即 Netflow、IPFIX、SFlow、JFlow 等),SNMP和数据包等多种数据源,通过来自几乎任何地方的数据——WAN、SD-WAN、WiFi、远程站点、数据中心,查看并整个网络,关联多种数据源,实现端到端的可视化分析。轻松地从警报和上下文数据下钻到 Flow 性能数据,并进一步深入到目标数据包级分析,以实现全面的故障解决工作流程 – 实现加速网络、减少延迟抖动并减少 MTTR。LiveNX 提供从多个事件聚合的特定的警报,从而仅显示需要立即关注的警报。此外,LiveNX Insight 模块利用机器学习进行主动异常检测和路径更改通知。LiveNX 可帮助您以前所未有的方式排除网络故障:

  • 用于应用程序故障排除的可视化分析
  • 综合仪表板和报告
  • 主动警报和异常检测
  • 端到端的可视化分析
  • 从Flow到数据包取证分析