1. 05 辽宁·锦州·凌海·九华山小布达拉宫

一、故障发现

1。 客户端域登录异常:部分客户端无法正常登录域环境,提示认证失败。
2。 系统时间偏移:所有客户端及服务端系统时间与北京标准时间存在约 7分钟偏差
3。 域控同步失败:主域控(PDC)与辅助域控(ADC)之间无法完成正常同步。


二、故障分析

经排查,定位以下问题原因:

2. 1 时间同步链路断裂

  • 辅助域控(ADC)的时候间同步源为主域控(PDC)。
  • 主域控(PDC)的时候间同步源为服务器主板硬件时钟,无法连接上游NTP服务器(10。 64。 1。 30)。
  • 根本原因:组策略中NTP服务器配置错误或未正确下发,导致PDC未指向外部可靠时间源。

2. 2 怀疑时间偏差引发Kerberos认证异常

  • Kerberos认证协议对时间差敏感(默认最大允许偏差为 5分钟)。
  • 当前系统时间偏差达到 7分钟,超出Kerberos容忍范围,导致:
    • 客户端域登录认证失败。
    • 辅助域控访问主域控共享文件夹失败(提示访问拒绝或凭据错误)。

2. 3 疑似辅助域控元数据可能受损

  • 辅助域控可以正常访问主域控的以下服务与端口:
    • AD服务(LDAP:389)
    • Kerberos(88)
    • SMB(445)
    • DNS(53)
  • 但无法访问主域控的共享文件夹(SYSVOL/NETLOGON)
  • 初步怀疑
    • 时间偏差导致Kerberos票据失效,SMB会话无法建立。
    • 或辅助域控的AD元数据(metadata)存在损坏。

三、故障处理过程

3. 1 执行系统备份

  1. 在主域控与辅助域控上安装Windows Server Backup工具

  2. 在主域控与辅助域控上执行首次备份

  3. 在客户端上查看组策略执行结果

gpresult /h C:\temp\gpresult.html
  1. 经与甲方分析, 甲方同意删除主辅域控上的网络安全管理软件
  2. 通过 w32tm 工具测试, 发现原定上游NTP服务器110. 164. 11. 130 无效, 其UDP 123端口在当前网络无法触达
w32tm 工具测试, 发现原定上游NTP服务器110. 164. 11. 130 无效, 其UDP 123端口

3. 2 强制将辅助域控降级并重建辅助域控

  1. 检查主域控是否正常
1. 主域控是否持有所有 FSMO 角色
netdom query fsmo
2. 主域控 AD 数据库是否正常
ntdsutil "activate instance ntds" "files" "info" quit quit
3. 查询唯一的GC服务器是否是主域控
repadmin /showrepl | findstr "GC"
dsquery server -isgc
4. 检查辅域控上的 DNS、组策略条数、主机信息、证书服务等
  1. 使用dcpromo或者服务管理器进行降级操作
1. 服务器管理器 → 管理 → 删除角色和功能 → 取消勾选"Active Directory 域服务" → 降级此域控制器
2. 重启服务器
  1. 重新加域以及提升为域控服务器
1. 清理主域控上的残余配置信息
2. 检查和配置辅助域控主机的网络信息,并检查与主域控的连通性
3. 使用 dcpromo 重新执行加域操作,并重启
4. 执行校验

3. 3 手动时间同步修复

  1. 手动同步主域控时间
# 以管理员身份执行
# 停止服务
net stop w32time
# 取消注册
w32tm /unregister
w32tm /config /manualpeerlist:"110. 164. 11. 130, 0x8" /syncfromflags:manual /reliable:yes /update
w32tm /register
# 启动时间服务,并同步
net stop w32time && net start w32time
w32tm /resync
  1. 验证同步状态
w32tm /query /status
w32tm /query /source
  1. 检查并修正组策略

    • 路径:Computer Configuration → Administrative Templates → System → Windows Time Service → Time Providers
    • 配置 “Configure Windows NTP Client” 策略,指定上游NTP服务器地址。
    • 执行 gpupdate /force 强制刷新策略。
  2. 辅助域控同步主域控时间

w32tm /config /syncfromflags:domhier /update
net stop w32time && net start w32time
w32tm /resync

3. 4 辅助域控同步恢复

1。 时间偏差修复后,辅助域控与主域控的共享文件夹访问恢复正常
2. 执行强制复制同步:

repadmin /syncall /AdeP
  1. 检查复制状态:
repadmin /showrepl
dcdiag /test:replications

3. 5 客户端域登录验证

  1. 在客户端上执行命令检查登录域控是主还是辅助域控
set l
  1. 选取故障客户端,执行:
w32tm /resync
gpupdate /force

3。 测试域用户登录,恢复正常


四、处理结果

检查项 处理前 处理后
主域控时间同步 与主板同步,偏差7分钟 与NTP服务器同步,误差<1秒
辅助域控同步 失败 正常同步
客户端域登录 部分客户端失败 全部正常
共享文件夹访问 辅助域控无法访问 正常访问
AD复制状态 报错 通过dcdiag测试正常

五、后续建议

1。 同步更新域控服务器主板BIOS时间设置,防止重启后时间重置。
2。 配置域控时间同步策略:建议在组策略中保留NTP服务器配置,配置稳定的硬件上游NTP服务器,避免因服务器重启或策略丢失再次出现时间偏差。
3。 监控时间偏差:建议部署运维监控(如Zabbix)对域控服务器时间偏差进行告警(阈值:>30秒)。
4. 定期检查AD复制状态:建议每周执行 dcdiagrepadmin /showrepl 检查复制健康状态。
5。 备份AD数据库:建议通过WSB工具定期备份系统状态(System State),以应对AD元数据损坏场景。