第一章:服务管理基础

节选自System Center Service Manager 2010发布。

这是邓小平同志会见系统中心服务经理2010年发布

通过Kerrie Meyler,亚历山大Verkinderen,安德斯·本特松,帕特里克Sundqvist,大卫Pultorak

发表的地空导弹

ISBN-10: 0-672-33436-4

ISBN-13: 978-0-672-33436-8

临时演员:阅读作者Kerrie Meyler的微软子网博客,管理微软

时事通讯:从InformIT时事通讯获得特别优惠

在这一章

  • 使用服务经理的十个理由

  • 当今系统的问题

  • 服务管理定义

  • CMDB中的演变

  • 服务管理策略

  • 微软系统中心概述

  • 服务经理2010的价值主张

系统中心服务经理2010,微软系统中心套件的新成员,是一个集成的自动化平台和适应信息技术服务管理(ITSM)最佳实践,如发现在信息技术基础设施库(ITIL)和微软操作框架(MOF),您的组织的需求。服务管理器为事件解决方案、问题解决方案、更改控制和配置管理提供内置流程。

服务管理器是一个帮助台和变更管理工具。通过使用配置管理数据库(CMDB)和流程集成,服务管理器可以自动连接来自系统中心操作管理器(OpsMgr)、系统中心配置管理器(ConfigMgr)和活动目录(AD)域服务的知识和信息。服务管理器提供以下功能,为您的信息技术(IT)服务提供集成、效率和业务一致性:

  • 整合整个系统中心套件的过程和知识:通过与操作管理器和配置管理器的集成功能,服务管理器提供了一个集成的服务管理平台。这有助于减少停机时间并提高数据中心的服务质量。2020欧洲杯预赛

  • 提供准确和相关的知识库:知识库信息驻留在CMDB中,并包含产品和用户知识,以使IT分析人员能够快速识别和解决事件。用户可以使用自服务门户(Self-Service portal, SSP)在知识库中搜索信息,以帮助找到问题的解决方案。组织可以创建和管理自己的知识库文章,并使IT分析师和最终用户都可以访问这些信息。

  • 降低成本和提高响应能力:服务经理的能力可以提高用户的生产力和满意度,同时减少使用SSP的支持成本,并增加满足IT GRC(治理、风险和遵从性)过程管理包的遵从性需求的信心。

  • 改善业务对齐:Service Manager通过配置管理、遵从性、风险管理、报告和分析功能,帮助您的组织与业务目标保持一致,并适应新的需求。

  • 提供即时价值的内置过程管理包:服务管理器包括用于事件和问题解决、变更控制、配置和知识管理的核心流程管理包。

本章介绍System Center Service Manager 2010。产品的各种缩写包括SCSM, SM, Service Manager, SvcMgr;本书使用了服务管理器和SvcMgr的术语。Service Manager提供以用户为中心的支持,提高数据中心管理效率,使您能够适应组织的业务目标并适应不2020欧洲杯预赛断变化的业务需求。

使用服务经理的十个理由

为什么要使用Service Manager 2010呢?这如何使你的日常生活更容易?虽然这本书详细介绍了服务管理器的特性和优点,但是它绝对有助于理解为什么服务管理器值得一看!

让我们来看看你想使用服务管理器的10个令人信服的理由:

  1. 您的支持台被手动输入用户请求(24x7)所淹没。

  2. 您意识到,如果您在一个控制台上拥有所有系统的可见性和信息,那么帮助台管理就会简单得多。

  3. 当上层管理人员呼叫帮助台时,您发现电子邮件已停机。虽然这一机制实际上在吸引你的注意力方面相当有效,但它多少会导致压力,而不是特别主动。

  4. 如果你不整天处理用户问题,你的工作效率会更高。和晚上……在午餐和度假期间。

  5. 您部门的大部分预算用于支付承包商团队管理用户支持和帮助台的费用。

  6. 你厌倦了要通过每个服务器的寻找您需要的客户端,服务器,物理和虚拟环境的报告。

  7. 系统管理员在工作时间对生产系统进行补丁和更新,通常会导致服务器宕机。

  8. 当你更新你的用户文档时,一切都变了,你必须重新开始!

  9. 当您不确定自己当前的能力时,您就无法适应组织的业务需求。

  10. 你没有时间写下大脑中所有的故障诊断信息,你的老板担心你可能被卡车撞了(或者想去度假)。这可能不是支持最终用户的最佳方式。

虽然有些开玩笑,但是对于许多IT经理和支持人员来说,这些主题代表了非常真实的问题。如果您是这些人中的一员,那么您应该自己研究如何利用Service Manager来解决这些常见问题。在某种程度上,这些痛点对于几乎所有使用Microsoft技术的用户都很常见,Service Manager为所有用户提供了解决方案。

然而,使用Service Manager最重要的原因可能是它能给您带来平静的心情,因为您知道您对您的it系统拥有完全的可见性和控制权。这可以为您的组织带来的生产力也是一个巨大的好处。

当今系统的问题

随着业务需求的增加,而IT人员水平却没有直线增长,组织必须不断寻找通过工具和自动化来简化管理的方法。从服务管理的角度看,现今的资讯科技系统容易出现以下问题:

  • 配置“移位和漂移”

  • 系统隔离

  • 缺乏历史信息

  • 没有足够的专业知识

  • 失踪事件及资料

  • 缺乏一致性过程

  • 没有达到服务级别的期望

这个列表不应该让人感到惊讶,因为这些问题在所有IT部门都有不同程度的严重程度。事实上,Forrester Research估计82%的大型商店正在进行服务管理,67%的商店计划增加Windows管理。让我们看看问题是什么

为什么系统会崩溃?

让我们从检查系统崩溃的原因开始。图1.1根据作者的个人经验和观察,说明系统中断的原因,下面的列表描述了其中的一些原因:

  • 软件错误:软件造成的错误还不到一半。这些错误包括软件编码错误、软件集成错误、数据损坏等等。

  • 用户错误:终端用户和操作人员造成的错误还不到一半。这包括不正确地配置系统、未能捕捉到变成错误、事故、拔下电源线等的警告消息。

  • 各种各样的错误:最后一个类别相当小。这里的问题原因包括磁盘崩溃、断电、病毒、自然灾害等等。

作为图1.1表明,绝大多数的失败从软件级的错误和用户错误造成的。令人惊讶的是要注意的是硬件故障只占问题的一小部分,这要归功于现代的系统,如独立磁盘(RAID),集群和部署,以提供服务器和应用程序冗余等机制的冗余阵列。

图1.1

系统中断的原因。D. Scott在2002年5月的一篇题为“操作零停机时间”的演讲中,在Gartner Group的安全会议上讨论了类似的统计数据。

这些数字表明,要减少系统停机时间,需要攻击软件和用户错误组件的等式。这就是你能得到最多“物有所值”的地方。

配置“移位和漂移”

即使在具有良好定义和文档化的变更管理的IT组织中,过程也不完美。计划外和不需要的更改经常会进入环境,有时是作为已批准的计划更改的意外副作用出现的。

你可能熟悉一个古老的哲学问题:如果森林里的一棵树倒了,周围没有人听到它的声音,它会发出声音吗?

这是与变更管理等价的东西:如果在系统上进行了变更,但是周围没有人听到它,那么识别它会有影响吗?

在这个问题的答案绝对是“是”。毕竟,每一个变化的系统有可能影响其功能或系统的安全性,或者说系统坚持以企业或合规性。

例如,向web应用程序组件添加特性可能会影响应用程序二进制文件,因为它可能会覆盖文件或设置,而这些设置被关键的安全补丁所取代。或者,实现更改的工程师看到一个他认为配置错误的设置,并决定在已经在系统上工作时“修复”它。在涉及敏感客户数据的电子商务场景中,这可能会带来灾难性的后果。更不用说,排除您不知道已经更改的问题就像大海捞针一样。

最后,您的管理平台必须引入强大的基线配置监视和实施元素,以确保配置标准的实现和维护具有所需的一致性。

系统隔离

Microsoft Windows Server及其上运行的应用程序通过事件日志、性能计数器和特定于应用程序的日志公开了大量信息。但是,这些数据是独立的,并且通常是服务器中心的,这使得确定问题的实质和位置变得非常困难。要控制系统,您需要采取措施来防止出现上述情况图1.2,你有多个信息孤岛。

图1.2

信息孤岛。

以下是一些你可能会发现孤立信息的地方:

  • 事件日志:事件由Windows操作系统、组件和应用程序生成。日志包括错误、警告、信息和安全审计事件。这些事件日志本地存储在每个服务器上。

  • 性能计数器:Windows操作系统和多个应用程序通过性能计数器公开详细的性能信息。数据包括处理器利用率、内存利用率、网络统计数据、磁盘空闲空间和成千上万的其他信息。这些信息可以帮助预测性能趋势并确定可能影响应用程序可用性的响应问题。

  • Windows管理工具(WMI):WMI提供了对大量信息的访问,从服务的高级状态到详细的硬件信息。

  • 专业知识:咨询师、工程师和主题专家都把信息锁在脑子里或写在白板和餐巾纸上。这就像存储在任何一台计算机上的统计和数据一样,是一个信息孤岛。

尽管系统信息是通过事件日志、性能计数器、基于文件的日志和经验捕获的,但它通常会随着时间的推移而丢失。大多数日志滚过,被擦除以清除空间,或者最终被覆盖。即使信息最终没有丢失或忘记,通常也不会定期检查。

大多数应用程序信息也是以服务器为中心的,通常存储在服务器上,并且特定于应用程序所在的服务器。关键信息没有内置的、系统范围的、跨系统的视图。

拥有信息孤岛(数据滞留在任何给定的岛屿上)使得及时有效地获取所需信息变得困难。没有这些信息会使管理用户满意度成为一项困难的工作

缺乏历史信息

有时,您可能会捕获有关问题的信息,但无法及时回顾,以确定这是一个孤立的实例还是循环模式的一部分。一个事件可以是一个一次性的暂时现象,也可以是一个潜在的问题。没有历史背景,就很难理解任何特定事件的意义。

这里有一个例子:假设有一个顾问来检查为什么数据库应用程序有性能问题。为了证明存在问题,内部IT人员指出,用户抱怨性能,但数据库服务器上的内存和CPU利用率只有50%。这本身没有任何意义。可能是内存和CPU的利用率通常是65%,而问题实际上是网络利用率问题,从而降低了其他资源的负载。这个问题甚至可能是一个新实现但编写得很糟糕的应用程序!历史背景可以提供有用的信息。

123.456 第1页
第1页共6页
工资调查:结果在