Prometheus负责集群数据的监控和采集,然后传递给grafana进行可视化,集成睿象云可实现监控报警,为了方便操作,可以通过iframe嵌套grafana到指定的页面。
文章目录
- 1.Grafana集成Prometheus
- 2.iframe内嵌grafana
- 3.监控告警
1.Grafana集成Prometheus
修改prometheus/config/prometheus.yml,配置需要监控的集群节点(doirs,zookeeper,hadoop,flink)。
修改完配置,重启docker。
访问http://ip地址:9090/targets,可以看到集群各个节点的健康状态。
访问http://ip地址:3000/dashboards
Connections->Data sources添加prometheus数据源,然后新建仪表盘
根据id加载对应的仪表盘
flink集群
doris集群
hadoop集群
zookeeper集群
2.iframe内嵌grafana
修改grafana/conf/grafana.ini,设置匿名登录。
设置允许嵌套图表。
复制面板的链接
内嵌到指定的网页
3.监控告警
grafana集成睿象云可以实现邮箱,钉钉,短信和电话等方式告警,以监控flink集群告警邮箱为例,进入睿象云,绑定邮箱。
监控grafana
得到url链接
到grafana添加联系点
设置分配策略及通知策略
添加仪表盘,表达式((flink_jobmanager_job_uptime)-(flink_jobmanager_job_uptime offset 30s))/100
用于监控flink集群作业是否正常运行(flink_jobmanager_job_uptime表示job从启动到当前时间的持续运行时间,若当前时间戳减去前30s的时间戳等于0说明运行的job已经挂掉了)
告警条件设置为当前时刻表达式的取值为0
设置联系点
正常情况下的监控
验证监控告警是否有效
public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);SingleOutputStreamOperator<WordCount> sensorDS = env.socketTextStream("192.168.235.130", 9988).map(new MapFunction<String, WordCount>() {@Overridepublic WordCount map(String s) throws Exception {String[] data = s.split(",");return new WordCount(data[0], Integer.parseInt(data[1]));}});KeyedStream<WordCount, String> sensorKS = sensorDS.keyBy(sensor -> sensor.getWord());WindowedStream<WordCount, String, TimeWindow> sensorWS = sensorKS.window(TumblingProcessingTimeWindows.of(Time.seconds(10)));SingleOutputStreamOperator<String> process = sensorWS.process(new ProcessWindowFunction<WordCount, String, String, TimeWindow>() {@Overridepublic void process(String s, Context context, Iterable<WordCount> elements, Collector<String> out) throws Exception {long startTs = context.window().getStart();long endTs = context.window().getEnd();String windowStart = DateFormatUtils.format(startTs, "yyyy-MM-dd HH:mm:ss.SSS");String windowEnd = DateFormatUtils.format(endTs, "yyyy-MM-dd HH:mm:ss.SSS");long count = elements.spliterator().estimateSize();out.collect("key=" + s + "的窗口[" + windowStart + "," + windowEnd + ")包含" + count + "条数据===>" + elements.toString());}});process.print();env.execute();}
当断开端口的监听之后,job挂掉了,此时邮箱收到告警信息。