什么是数据中心?

数据中心是承载 IT 基础架构的实体房间、建筑或设施,用于构建、运行和交付应用和服务,以及存储和管理与这些应用和服务相关的数据。

近年来,数据中心已从专供一家企业使用并受到严格控制的私有本地设施,发展成为由云服务提供商拥有的远程设施或这些设施构成的网络,这些设施容纳虚拟化的 IT 基础架构,供多家企业和客户共享使用。

数据中心的选择

空间环境评估

地质环境

  1. 五个远离:远离水\土\火\污\磁
  2. 三个临近:
    1. 靠近市政主干道
    2. 临近公共交通站
    3. 临近城市及生活商业区
  3. 一个确保:确保良好的移动信号,保证联络通常

空间结构

  1. 机房的抗震等级和载荷(GB50223-2008)
  2. 外场地空间的选择
  3. 机房的选择
  4. 机柜的选择
  5. 辅助区域的选择

基础设施评估

电气系统
  1. 可靠性要求

    1. 输电侧的高可靠性
    2. 全路径的所有节点要保证充分冗余
    3. 备用方案的持续支援能力
  2. 用电安全要求

    1. 机房接地系统必须满足要求
    2. 所有设备的可导电外壳均应做等电位连接,不应有对地绝缘的孤立导体
    3. 机房所在大楼的接地电阻应小于1Ω
    4. 机房地板或者地面应有静电泄放措施
  3. 电力容量要求

    1. 不推荐使用20A以下机柜,最好使用40A机柜
    2. PDU插座数量要与电力容量以及上架设备数量相匹配
    3. 外接设备不应当直接接入生产PDU插座
空调系统
  1. 送风模式

  2. 出风模式

  3. 密闭问题

    1. 空闲机柜的影响
    2. 托盘上架方式
    3. 机柜设计问题
  4. 精密空调的选择

  5. 气流组织

    1. 冷通道内任意点温度均不高于24°,热通道与冷通道温差不大于12°
    2. 空调断电期间,机房冷通道温度不超过30°,5kw机柜恢复供冷时间不超过10分钟,8kw机柜恢复时间不超过6分钟
    3. 板下送风气流组织,风速不超过3m/s,风道送风主干管不超过8m/s
    4. 送风距离:单侧送风距离应小于15m,大于15m应双侧送风
消防系统
  1. 机房耐火不应低于2级
  2. 至少两个安全出口,门的开启方向要和疏散方向一致且在任何情况下应当能从屋内开启并完成自动闭锁
  3. 灭火装置应选用IG541或者七氟丙烷气体
弱电与综合布线系统
  1. 综合布线
    1. 强弱电线缆分开,并注意间隔
    2. 线缆走线应当平行无交叉
    3. 管线空间要符合标准
  2. 弱电
    1. 确保视频监控\温度监控\入侵检测无死角
    2. 至少两部可用于外拨的固定电话
    3. 监控系统需要支持HTTP\SNMP\TCPIP等主流通信协议

网络建设评估

主要关注数据中心能够提供的网络资源与建设资质

  1. 使用专线还是裸光纤
  2. 线路冗余

服务保障评估

评估IDC的SLA能力

  1. 便宜没好货
  2. 多看实际生产环境
  3. 不要只提问不回答
  4. 多多学习,积极扩展自己的知识面

数据中心示例

硬件规范









服务示例





价格参考

数据中心规划

生命周期

一个优秀的规划设计方案是一切良好的开端。数据中心的规划分为三个阶段

准备工作

  1. 完成设备选型和能耗测试
  2. 计算总体成本最小值
  3. 依据相关数值选择合适的数据中心

实地调研

  1. 参阅数据中心平面设计图
  2. 对机柜、供电、网络链路
  3. 了解实际情况与最初设计方案的偏差

平台建设

  1. 设计方案要保证各个子系统的平衡
  2. 网络、系统各个运维人员要参与到平台建设中来
  3. 注意业务需求的多样性、多变性

拥抱变化

需求的不确定性

  1. 说不好
  2. 没想到

降低冲突

  1. 采购资源预留
  2. 优化机柜规划与布局
    1. 网络区
    2. 管理区
    3. 数据库区
    4. 应用区
    5. 大数据区
    6. 预发布区
    7. 特殊需求区
    8. 开发区
    9. 沙盘区
  3. 规划设计心得
    1. 楼层的选择:低于三层选择低层,反之尽可能挑高层使用
    2. 机柜可以不加装前门
    3. 线缆标签管理
    4. 适度选择高电机柜
    5. 解决基础架构的问题永远都是从整体入手,完善整体架构才是消除个体问题最好的手段
    6. 成本考核,并进行成本核算
      1. 机柜有效容量
      2. 空间利用率
      3. 电量利用率
      4. 单台损失

服务器选型

硬件平台是支撑生产系统运行的基础设施,而服务器是硬件平台中最关键的部分,它既是硬件平台中数量最多的设备,也是直接承载业务及数据交换的关键环节。

如何选择合适配置

总体原则

  1. 统一规则:确定总体需求,对整个应用系统的模块、用户、流程进行分析
  2. 高可靠性:要求适用性强、故障低,生命周期内确保供应链可靠和备件货源充足
  3. 操作便利性
  4. 弱化纵向扩容能力:生命周期结束后,设备升级应当是整机替换而不是部件升级
  5. 符合未来发展走向
  6. 产品线平滑过渡
  7. 高性价比,质优价廉

选型细则

  1. 内存:匹配CPU和解决兼容性
  2. 网卡:低延时、资源占用少、稳定高效,带外管理必须要有独立网口
  3. 服务器规格:能使用1U坚决不用2U,遵循配置最简化
  4. 磁盘的容量与数量:性能并非越高越好,没有使用到的资源就是浪费
  5. 备件供货保障期
  6. 过保服务器的处理

优秀服务器产品

  1. 质量:产品第一要素,主要是指硬件故障率
  2. 功能:主要是指服务器的带外管理功能
  3. 服务: 产品维修响应速度、硬件和驱动程序兼容性
  4. 用户体验:
    1. 响应时间
    2. 用户界面
    3. 产品逻辑
    4. 硬件信息的静态展示和动态展示

异构平台融合能力

  1. IPMI协议
  2. WS-management
  3. Redfish

服务器测试

准备工作

  1. 使用环境和主机的一致性
  2. 核对硬件配置,建立测试基线

测试工作

  1. 系统部署测试
  2. 产品功能性测试
  3. CPU/内存性能测试
    1. sysbench
    2. top/free
  4. 磁盘性能测试
    1. sysbench
    2. fio
  5. 网络性能测试
    1. 基于iperf的测试
    2. 基于netperf的测试
  6. 能耗测试
    1. 概念
      1. Turbo Boost
      2. TDP
    2. 意义:确定机柜设备上架数
    3. 分类
      1. 最大能耗测试
      2. 负载能耗比测试
    4. 工具
      1. 能耗分析器
      2. 温度传感器
      3. SPECPower
    5. 结果读取:只能使用pdu串接能耗分析仪来读取,IPMItool数值不可取

服务器上架

到货验收

  1. 到货之前与承运方确定交接地址、时间,避免雨雪、大风天气,确定卸货场地;
  2. 点验服务器数量、配置、SN号,完成验货单据填写
  3. 归集整理电源线(注意16A还是10A)、导轨,清点相关设备数量
  4. 服务器去除包装,堆放到指定位置,并进行数量清点、拍照存档和垃圾清理

上架

  1. 确定服务器上架位置与线缆走线,配置Rack次序并存档
  2. 打印标签,安装导轨,开通机柜电源
  3. 按照先网络设备后服务器、先下层机柜后上层的次序进行上架,有条件要设备接地;
  4. 配置AB电源线路,按照左上右下的顺序,将电源线接入不同的PDU,并进行绑扎固定(服务器侧电源线打圈留出余量并用魔术贴固定)
  5. 电源线缆严禁跨机柜部署,网络线缆必须要跨机柜的,需要提前绘制线路走向示意图提交IDC机房运维;
  6. 网络线缆粘贴标签,并进行布线和绑扎固定,同样按照线路冗余配置进行左右分别走线和固定
  7. 开机,进入idrac、ilo或者BMC界面配置带外管理网络地址和管理密码
  8. 配置生效后,进入硬件信息展示界面进行拍照存档,主要保留带外IP地址和主机SN号
  9. 检查电源、网络硬件亮灯情况,完成固定资产登记,并向后续网络运维和系统运维工程师移交相应设备清单和配置需求

硬件设备故障告警与维修

硬件故障特点

  1. 部件损坏的范围比较集中
  2. 故障发生的时间点相对集中
  3. 需要降低硬件故障对SLA的影响
    1. 把好质量关,选择优质设备、电力供应和机房环境
    2. 硬件故障必须及时通告,不可依赖人工巡检

故障告警

告警方式

  1. 电子邮件
  2. SNMP告警
  3. Syslog
  4. 原厂工具,比如Dell OpenManage Enterprise

事件类型和告警级别

  1. 区分Informational、Warning、Error、Critical、Emergency/Fatal

  2. 配置合理告警级别,将Critical和Error作为直接告警级别

故障分析

分析手段

  1. IPMI
  2. MCE
  3. MegaCli

常见问题

  1. Raid卡电池告警
  2. 链路告警
  3. 预判告警
  4. 电力告警
  5. 检查CPU或者内存的错误
  6. Kernel Panic
  7. 磁盘巡检故障及坏块
  8. 修复过程中出现的告警信息

设备报修

保修期内服务器报修

  1. 登录dell中国,根据序列号查看设备是否再保 https://www.dell.com/support/home/zh-cn
  2. 设备保修内,直接电话Dell技术客服400 886 8616,开case报修服务器
  3. 协助Dell技术搜集日志,邮件附件回复Dell,并且添加上服务器地址信息
  4. 届时Dell技术分析日志后,会安排配件派单
  5. 和部门leader或者系统管理员沟通变更时间,整理变更审批
  6. 把变更时间、设备信息、操作事项、机房入室办理相关说明dell售后技术
  7. 操作前先确定变更内容、变更时间、操作事情,无误后,请Dell售后技术,根据提供设备信息变更
  8. 变更后登录服务器iDRAC验证,验证无误后,回复变更审批下面,请Dell技术直接撤离即可

过保服务器维修

  1. 登录dell中国,根据序列号查看设备是否在保 https://www.dell.com/support/home/zh-cn
  2. 设备过保修,联系第三方供应商,说明采购配件型号、参数、数量,请他们查看一下是否有库存,且报一下单价
  3. 之后提供机房地址,安排他们发货(变更有时间要求,需要满足硬件更换SLA,如果发现供货慢,及时安排闪送取件)
  4. 之后同时发起采购审批,联系部门leader、系统管理员,沟通确定变更时间
  5. 机房邮件申请配件寄存,申请协助操作申请
  6. 布变更审批,安排机房变更,变更前先再电话沟通一下,设备信息、变更内容、变更细节等
  7. 变更后验证,故障配件可以临时安排运维放到该机柜最下面,待下次去机房带回
  8. 待下次去机房,把故障配件带回,整理后排查更新回复到原来的变更审批下面。

供应商SLA

在保硬件

  1. 硬件在 当日20点 - 次日9点出现故障,从故障出现开始计时,24h内更换;
  2. 硬件在 当日9 - 当日20 点出现故障,从故障出现开始计时,12h内更换;

过保硬件

  1. 硬件在 当日20点 - 次日9点出现故障,从故障出现开始计时,36h内更换;
  2. 硬件在 当日9 - 当日20 点出现故障,从故障出现开始计时,24h内更换;

IDC申请

人员入室申请

XX数据中心:
您好,非常感谢贵司以往对我司的技术支持和协助。

为进行服务器设备维护,我司现派员两人赴贵司XX数据中心XX机房进行入室维护作业。
现申请入室许可。

具体人员信息如下:
1. 人数: 2人;
2. 时间:2025.02.30~02.31
3. 具体人员:
陈XX 身份证号:11111111111111 电话:11111111111
郭xx 身份证号:22222222222222 电话:22222222222
4. 作业事项: 设备维护(上架、下线等)

申请人:苏XX
联系电话:33333333333

顺祝
商祺

北京XX互动有限责任公司
2024.04.01

配件寄存和更换作业申请

XXXX数据中心:
您好,非常感谢贵司以往对我司的技术支持和协助。

现我司需要更换托管于贵司XX数据中心XX机房的服务器上的单块硬盘,现申请贵司机房运维工程师协助操作。

具体情况如下:
1. 物品信息: 1块 戴尔 300GB 服务器硬盘(序列号:XXXXXXX);
2. 递送方式: 顺丰快递 (快递单号:XXXXXXXXXX);
3. 派送地址: 北京市XX区XX路XX街XX号北京XXXX信息技术有限公司
4. 接收人: 北京XXXX数据中心机房运维 电话:12345678901
5. 递送时间: 2025.02.31
6. 更换对象: M101机房-11064机柜-12U-Dell PowerEdge R620服务器(序列号:XXXXXXX)-物理硬盘 0:1:2
7. 机柜密码: 123

操作方式:
1. 请贵司机房运维工程师协助接收我司派送硬件设备;
2. 签收之后,请依据上述信息进行硬件设备替换;
3. 替换完成的故障硬盘请直接放置到操作机柜最下方;
4. 建议携带一个十字螺丝刀,以便更换硬盘托架;

免责声明:
易动纷享申请光环新网M101机房运维工程师依上述要求进行设备签收和更替作业。
如若出现问题与光环新网机房运维无关,全部责任由易动纷享承担。


申请人:苏XX
联系电话:33333333333

顺祝
商祺

北京XX互动有限责任公司
2025.04.01