Oracle活动会话异常增高诊断

近日,核心系统Oracle数据库集群的一个节点,多次出现Active Session超过100甚至超过300的现象,每次持续时间都是10秒左右,甚至只持续5秒以内…… 时间太短暂,我都来不及看清你的脸…… 头疼! 16:43:57 正常状态 16:44:58 发现LGWR 堵塞大量会话 16:45:08 堵塞情况依旧 16:45:19 恢复正常 系统在20秒时间内,由正常状态,一下切换到异常状态,Oracle Active Session在节点2上迅速超过300, 并且很快恢复……整个"异常”过程20秒,短暂到我们的REMS2 监控报警组件都没有发现这个异常(监控为了避免对系统的干扰,每2分钟检查会话情况)……还好有DPA-Lite, "事后"仍然可以进行"秒"级别状态回放…… 让我们知道当时发生了什么,利用DPA-Lite 就是十几分钟的事情,就可以知道LGWR产生了大量堵塞——如果没有DPA-Lite这样合适的工具,难以想象我们需要多久才能知道“作乱”的原来是LGWR……DPA-Lite Operation Screen Record. Screen Video