8K 超高清电视播出系统中组播流 智能管控平台的设计与实现

当前,播出系统已经开始从基带架构向IP 架构 发展。面对大规模、高性能的组播流网络监控 需求,需要一种新的监控方式。本文探讨了在 播出系统组网环境中进行组播数据监测的方法 和发展趋势,为智能运维系统的建设提供参考。

摘要

随着网络设备的种类和应用越来越多,网络管理 和运维的难度也在增加。在广电播出系统中,播出系 统架构由传统基带转变为IP 化后对视音频组播信号 的监控便显得尤为重要。Gartner 在AIOps(Artificial Intelligence for IT Operations 即智能化运维)的研究报 告中指出,智能运维平台应由监测(Observe)、处理 (Engage)和行动(Act)三部分结合大数据和机器学 习组成一个闭环结构,其中监测是触发整个闭环反馈 的基础和关键,缺乏高质量的监测,难以形成智能化 的处理和相应的主动运维行为。SNMP、CLI 和日志 等传统网络监控技术因效率低下已很难满足复杂网络 系统日益增长的监控需求,在此次8K 超高清播出系 统的建设过程中,需要一种更加实时、高效的技术以 应对监控业务的发展。


一 项目背景——8K 超高清播出系统介绍


中央广播电视总台播出系统紧密围绕总台 “5G+4K/8K+AI”的战略布局,深入探索推进8K 超 高清电视播出技术的应用,建设8K 超高清电视播出 系统,图1 为8K 超高清电视播出系统全景图。系统 采用IP 技术的主、备双核心信号调度矩阵架构设计, 根据设备类型将视音频系统资源池化,涵盖外来信号 资源池、服务器资源池、切换&NAT 资源池、介质播 放资源池等不同业务资源池共计8 个。各资源池间通 过核心调度矩阵实现信号交互与调度,同时配置末级 切换设备,实现对送给下游传输系统的8K 末级信号 的控制与调度。

image.png全网络化架构模式的形成使播出系统从过去广电 设备为主,网络设备为辅的形态转变,目前已形成广 电设备和网络设备并驾齐驱,相互协同的播出环境, 设备、网络和信号的状态都对安全播出起到至关重要 的影响。建设一套智能管控系统实时监控组播质量, 形成异态报警机制,对核心调度矩阵状态和端口流量 进行监管等需求刻不容缓,高效的管控能力将辅助值 班人员完成必要的应急切换操作。


二 系统架构设计


为了实现对组播流的高效监管,本系统定制开发 一款智能管控软件平台,通过与各类设备及控制器的 数据和命令交互,实现视音频域内的全局数据监控。 兼顾后期可扩展性,平台采用软件定义网络技术,将 网络设备中的控制功能和数据处理功能解耦,通过软 件配置的方式完成对全网设备的配置和管理,基础设 施层网络设备只保留数据包转发和状态收集能力。这 种分离的网络架构具备配置和管理的高度灵活性,在 降低了设备部署和后期运维成本的同时,提高了网络 设备的运行效率和生命周期,也有助于设备二次开发 功能的实现。
1. 系统架构
系统总体开发框架如图2 所示,由前端展示层、 业务层、数据层、数据库和基础运行环境组成。 

image.png

前端展示层实现对告警信息和资源性能监控数据 的多维度可视化展示,从资源和业务两个维度提供资 源使用信息查询功能,操作人员可在此层对历史数据 和实时数据进行查看。业务层制定整体业务逻辑,包 含设备管理、告警管理、拓扑管理、PTP 管理和信号 定义等模块,通过算法功能进行实现。数据层将服务 层进行整合,通过轻量级开发框架Spring 框架的两大 核心能力IOC 和AOP 管理服务层与数据层的创建对 象和逻辑编写操作。系统日志和权限管理等与业务运 行弱相关模块,因存在多个模块共同调用的业务场景, 于封装后统一调用。在数据库设计中使用Ehcache 作 为Mybatis 的二级缓存,选择Redis 作为用户session、 页面及接口数据的临时存储,MySQL 作为数据存储库, 主库为增删改库,备库为查询库。南向接口设计可通 过Netconf、Telemetry 和CLI 等3 种通信协议进行对接, 采用读(查询)接口流量统计、CPU 或内存数据等信 息和写(配置)两种方式实现设备控制。
平台采用虚拟化技术搭建运行环境,前端通过两 台Nginx 主机提供负载均衡和反向代理能力,对访问 流量进行分流,减少主机压力。通过Keepalived 实现 Nginx、MySQL 的双机热备,后端控制器服务由3 台 主机集群化部署。Redis 集群通过Cluster 模式搭建三 主三从节点实现高可用性。
2. 网络监控技术
传统播出系统因为网络环境简单,网络设备部署 量小,在过去的监控系统设计过程中通常使用SNMP get 和CLI 等技术就可满足日常监控需求。但伴随超 高清技术发展的同时是传输带宽指数级的增长,视音 频系统由SDI 彻底转向IP 化后,大量网络设备的部 署需要更精确、实时的监控技术。
Telemetry 是一项远程从物理设备或虚拟设备上 高速采集数据的技术,设备通过“网管定制—设备实 时推送”的推模式(Push Mode)主动向采集器上送 设备的接口流量统计、CPU 或内存数据等信息。如表 1 所示,SNMP get 和CLI 等传统网络监控技术多数采 用拉模式(Pull Mode)获取监控数据,采样精度只达 到分钟级别,想要获得数据的准确性只能加大查询频 率,易造成节点CPU 利用率过高从而影响设备运行 的情况,同时网络传输时延也会导致监控到的数据不 准确,因此并不适合监控大量网络节点环境。SNMP Trap 和SYSLOG 虽然是推模式的,但是其推送的数 据范围有限,仅是告警或者事件,对于类似接口流量 等数据不能采集上送。
诚然Telemetry在获取数据效果上存在一定优势, 但仍需根据不同厂家不同型号设备的实际情况选择合 适的监控手段,或者采用多种方式相配合的形式满足 业务的需求。


三 系统功能介绍


组播智能管控平台从人、机、信号多维度进行管 理,具备机房管理、设备管理、信号定义、报警管理、 日志管理和智能巡检等丰富功能,报警日志将全报警 信息进行分类和策略制定,对于端口状态和PTP 状态 等高级别告警信息采用count 计数形式,运维人员可 直观了解到设备或交换机端口状态,对高频报警环节 展开预防行为和针对性性能测试,做到尽早发现尽快 处理。对重点设备如核心交换机采取自动定时巡检, 上报巡检日志,化被动应急为主动防范,实现由人工 运维到自动运维的转变。接下来就适配播出域内业务 需求的4 个功能模块进行阐述。
1. 网络数据实时监控
基于Telemetry 协议收集设备、Buffer、光模块等 网络全景KPI 数据,实现网络状态实时感知。各项采 集数据通过采集器以PUSH+gRPC 方式将经过编码格 式封装的数据进行接收和存储,通过分析实现全流量 数据可视和随流的路径、质量监测。界面上可展示实 时CPU 使用率、内存使用率、温度值、电压值、端 口流量、丢包率等信息,通过制定策略在鼠标悬浮于 设备报警标识符之上时,自动展示最近5 条报警信息, 同时实现通过设备名称和组播名的查询形式获取组播 路径的反向查询功能。如图3 所示,选择主路末级信 号组播流,可查询到当前调用此组播流的设备包括末 级网关、信号比对服务器、画分、监看设备等,实现 业务端到端的网络流量可视化,提升了网络监控数据 的直观性、实时性和精确度。
2. 域内PTP 状态监控
视音频设备对PTP 信号质量敏感度高,大于 5000ns 的抖动就可能对设备造成影响,从而导致播出 信号异常,出现闪屏、静帧等现象,因此需要对域内 PTP 状态进行实时监控。此次播出系统接收总控送来 的两路PTP 信号,通过域内两台同步机对其进行时钟 隔离,并统一域内PTP 基准。域内两台调度核心交换 机分别与两台同步机对接,并在调度核心间做PTP 聚 合,确保全域锁定在同一个PTP 母钟下形成完备的冗 余机制,保证跨域PTP 信号的稳定性。
平台基于Telemetry 技术获取PTP 接口列表, 实现开机自动读取PTP 拓扑能力。控制器通过制 定定时策略周期性地收集交换机PTP 状态信息包 括grandmaster clock ID、parent clock IP、grandmaster offset、grandmaster class、grandmaster priority 等, 通过 终端设备开放的北向API 接口获取其端口PTP 状态信 息,进而计算并推演出整个拓扑结构,并对以上信息 于大屏进行可视化展示。在PTP 信号出现异常导致路 径变化时准确实时做出反应,进行告警提示,协助值 班员完成对PTP 网络环境的实时感知和应急操作。

1664347103792.png3. 组播流量监管
IP 技术的出现展示了调度的灵活性。同时组播流 安全传输问题也随之而来,混入第三方数据或者流量 突变将会造成下游设备信号处理异常,对播出质量产 生极大的影响。为避免上述情况的发生,结合IP 播 出系统业务流量均为组播流且相对单一的特性,采用 QoS 技术确保传输的安全性。

image.png系统内现使用的信号类型包括无压缩信号和压缩 信号,符合SMPTE ST 2110 的无压缩信流由视频流、 音频流和辅助数据流组成。以流量的实际值为依据, 设定无压缩视频数据、代理视频数据、音频数据、辅 助数据分别具有9Gbps、3Gbps、20Mbps、64Kbps 的 数据交换能力,QoS 基于访问控制列表ACL 的源地 址、目的地址、端口号等特定指示条件,形成白名单 策略,对允许通过的组播流进行如上限速方案,其余 则拒绝。流量控制的过程通过CAR 令牌桶形式体现。 如图4 所示,依据预先设定好的速度向桶中放置令牌, 直到桶中令牌数量达到预先设定好的容器容量,令牌 不再增加。桶中的令牌数表示可借贷的数据量,桶中 有令牌时可发送报文;桶中的令牌少到不能发送报文 时,报文则被丢弃。等桶中生成新的令牌,报文再次 准许被发送,这就限制报文流量只能小于等于令牌生 成速度,达到了限制流量的目的。
4. 末级网关应急
根据8K 超高清电视播出系统建设方案,在各关 键节点均配备主备冗余架构模式。服务器前端信源的 选择基于播出控制机的节 目编排单,通过网络控制 的形式进行信源选切,向 下游系统输出的末级信号 则通过终端IGMP 切换形 式保证信号的正常输出。 当通道信号出现异常,可 由末级切换网关进行自动 或值班员手动的快速应 急,选切预存信源配置恢 复播出,末级网关应急业 务流程如图5 所示。
平台针对末级切换网关异常的情况进行“一键替 换”操作。播出域内另配置一台末级切换网关用于备 份,平台通过手动获取和通过比对服务器发送接口信 息自动获取两种方式获得在播3 台末级网关的状态信 息和配置信息。当在播末级切换网关设备配置完成组 播地址、端口及相关参数的索引信息后,平台通过获 取以上索引信息并以可视化形式进行界面展示,同时 获取到网关config 配置信息,可直接保存或手动编辑 后保存至数据库。当其中一台末级切换网关设备故障, 将故障设备的配置信息通过API 接口的方式下发至备 份设备,同时关闭故障设备的交换机端口,开启备份 网关对应的交换机端口,备份设备输出末级信号流, 由此达到应急替换故障网关的功能。“以一替三”的 理念不仅节约了购置设备的空间和资金成本,“一键 替换”的操作更是节省了故障发生时手动配置设备的 时间成本,大幅提高了信号恢复时间。

image.png


四 总结


对视音频域内的组播网络进行实时监控对于播出 信号的安全起着关键性作用,为值班人员采取异常情 况的主动应急操作提供了必要手段,为运维人员预判 网络问题及时处理提供了有效依据,大大提升了运维 的效率。由于域内设备种类繁多,并存在扩展空间, 监控系统的完善需要各设备端进行积极配合有效适 配,通过接口等形式将设备纳管进平台。同时平台也 存在巨大优化空间,目前对交换机设备的告警关注点 主要存在于网络侧是否存在异常,后续针对制播网中 关注的内容侧可进行部分优化,例如基于时间的资源 管理、冲突判断以及定时切换流程,对告警策略及告 警收纳规则的完善,通过反馈、限制、映射和临界点 机制的优化提高人机交互能力等。
基于软件定义网络的智能监控系统克服了传统网 络监控技术成本高、带宽低和更新困难等缺点,可以 满足播出系统网络日益增长的带宽需求,是一种低成 本、灵活高效的广电制播域网络监控解决方案。


参考文献:
[1] 魏航. 数据中心网络智能运维的带内遥测技术[J]. 数字通信 世界,2021(09):135-136.
[2] 刘洪波. 基于SDN 的企业网络监控系统的设计与实现[D]. 上海交通大学,2019.

转载请注明来源:《现代电视技术》 作者:中央广播电视总台 甄真