運用の基本方針・体制

Home

📕Arrow icon of a page linkサンエムシステム 上流工程標準(Preview版)

⚖️Arrow icon of a page linkサンエムシステム上流工程 標準規格

📘Arrow icon of a page link要件定義 実践ガイド

📘Arrow icon of a page link基本設計 実践ガイド

📄Arrow icon of a page linkテンプレート集

Get Started

📄Arrow icon of a page link基本設計工程のルール

📄Arrow icon of a page link基本設計書の構成を決める

🚧Arrow icon of a page link基本設計のプロセスモデル

実践ガイド

文書情報
システム方式設計
外部仕様設計
運用設計
インフラ設計
移行計画
テスト方針・計画
開発プロセス・規約
レビュー・承認

運用の基本方針・体制

システムの安定稼働を実現するための運用体制、役割分担、責務範囲、SLA管理方針を定義し、運用部門と開発・保守部門の協働体制を確立します。

🎯 概要


  • 目的: システムの安定稼働を実現するために必要な運用体制、役割分担、責務範囲、SLA管理方針を明確にし、運用部門と開発・保守部門の協働体制を確立する
  • スコープ: 運用組織・体制、役割と責務分界、権限管理、コミュニケーション体制、SLA/KPI、運用ドキュメント管理、教育訓練計画をカバーする。個別の運用手順の詳細は対象外
  • 推奨する実施タイミング: 基本設計の中盤~後半、システム構成とインフラ設計が固まった段階で実施する
  • 関連するステークホルダー: 運用責任者、運用チーム、保守開発チーム、システム管理者、サービスオーナー

📥 重要な前提知識・インプット


  • 前提知識: ITIL/ITSMの基礎知識、SLA/SLO/SLIの概念、インシデント管理・変更管理のプロセス、運用監視の基本
  • インプット: 非機能要件(可用性・保守性・運用性)、システム構成図、インフラ設計書、既存運用体制の情報

📄 成果物の定義


  • ドキュメントテンプレート: 📄Arrow icon of a page link[テンプレ]運用の基本方針・体制
  • 必須要素: 運用体制図、役割定義表、責務分界表、権限マトリクス、SLA/KPI定義、コミュニケーション体制図、運用ドキュメント体系図、教育訓練計画
✅ 品質基準・レビュー観点

品質チェックリスト:

チェック項目 チェック内容
体制の明確性 各役割の責務・権限・稼働時間が明確に定義されているか
責務分界の明確性 運用部門と開発部門の責務分界が曖昧さなく定義されているか
エスカレーション体制 障害発生時のエスカレーションフローが明確で実行可能か
SLA/KPIの妥当性 測定可能で達成可能なSLA/KPI目標が設定されているか
権限管理の適切性 最小権限の原則が守られ、職務分離が実現されているか

👁️‍🗨️ レビュー観点:

  • 要件との整合性: 非機能要件(可用性・保守性・運用性)が運用体制に反映されているか
  • 実現可能性: 定義された体制・役割分担が組織の実態に即して実現可能か
  • 継続性: 運用の継続性を担保する教育・訓練・改善の仕組みがあるか
  • コスト妥当性: 運用体制の維持コスト(人員・ツール・教育)が予算内に収まるか
🧪成果物のサンプル
# 運用の基本方針・体制

## 本章の目的

本章では、システムの安定運用を実現するために必要な運用体制、役割分担、責務範囲を定義する。

## 運用要件の要約

本システムの運用要件は、要件定義書に記載された以下の項目に基づく。

- **可用性要件**: 稼働率 99.9% 以上、計画停止は月次メンテナンス時のみ
- **運用時間帯**: 24時間365日のサービス提供
- **保守対応**: 平日9:00-18:00は即時対応、夜間・休日はオンコール体制
- **バックアップ**: 日次フルバックアップ、保持期間30日

詳細は要件定義書を参照。

---

## 運用体制

### 運用体制図

```mermaid
graph TB
    Owner[サービスオーナー<br/>経営層]
    Manager[運用責任者<br/>システム部長]
    
    L1[一次対応<br/>運用チーム]
    L2[二次対応<br/>保守開発チーム]
    L3[三次対応<br/>ベンダー・専門家]
    
    Monitor[監視担当<br/>24h365d]
    Ops[運用オペレーター<br/>平日日中]
    
    Owner --> Manager
    Manager --> L1
    Manager --> Monitor
    L1 --> Ops
    L1 -.エスカレーション.-> L2
    L2 -.エスカレーション.-> L3
    Monitor -.障害検知.-> L1
```

### 運用組織の役割定義

| 役割 | 責務 | 担当者/チーム | 稼働時間 |
|------|------|--------------|---------|
| サービスオーナー | 最終意思決定、予算承認、重大障害時の判断 | 経営層 | - |
| 運用責任者 | 運用全体の統括、SLA管理、改善施策の立案 | システム部長 | 平日 9:00-18:00 |
| 一次対応 | 障害の初動対応、ログ収集、切り分け | 運用チーム | 24時間365日(オンコール) |
| 二次対応 | 詳細調査、暫定対応、恒久対応の実施 | 保守開発チーム | 平日 9:00-18:00 + オンコール |
| 三次対応 | 高度な技術支援、製品バグ対応 | ベンダー・専門家 | 契約による |
| 監視担当 | システム監視、アラート対応、初期トリアージ | 監視チーム | 24時間365|
| 運用オペレーター | 定型作業、バッチ実行、データ投入 | 運用チーム | 平日 9:00-18:00 |

---

## 運用部門と保守・開発部門の責務分界

### 責務分界の基本原則

- **運用部門**: システムの安定稼働維持、定型作業、監視、一次対応
- **保守・開発部門**: 障害の根本原因調査、恒久対応、機能改善、リリース作業

### 詳細責務分界表

| 作業分類 | 作業内容 | 運用部門 | 保守開発部門 | 備考 |
|---------|---------|---------|-------------|------|
| **日常運用** | システム監視 || - | 24h365d |
| | バッチ実行・確認 || - | |
| | データ投入・修正 ||| 複雑なケースは開発部門 |
| | ユーザー問い合わせ対応 ||| 技術的内容は開発部門 |
| **障害対応** | 障害検知・初動対応 || - | |
| | 切り分け・ログ収集 || - | |
| | 詳細調査・根本原因分析 ||| |
| | 暫定対応実施 ||| 状況に応じて協働 |
| | 恒久対応(修正リリース) | - || |
| **メンテナンス** | 定期メンテナンス計画 ||| |
| | メンテナンス作業実施 ||| 技術的作業は開発部門 |
| | パラメータ変更 ||| 影響大の場合は開発部門 |
| **リリース** | リリース計画策定 ||| |
| | リリース作業実施 ||| 協働実施 |
| | リリース後動作確認 ||| |
| **改善・最適化** | 性能チューニング ||| |
| | 運用改善提案 || - | |
| | システム改善開発 | - || |

凡例:= 主担当、△ = 支援・協力、- = 対象外

---

## 権限ロール定義

### アクセス権限マトリクス

| ロール | 本番DB<br/>参照 | 本番DB<br/>更新 | サーバー<br/>ログイン | システム<br/>設定変更 | デプロイ<br/>実行 | 監視画面<br/>閲覧 |
|--------|---------------|---------------|-------------------|-------------------|----------------|----------------|
| 監視オペレーター | - | - | - | - | - ||
| 運用オペレーター ||| - | - | - ||
| 運用管理者 |||||||
| 開発者 || - || - | - ||
| 保守担当者 |||||||
| システム管理者 |||||||

凡例:= 権限あり、△ = 承認後に実施可能、- = 権限なし

### 権限管理ルール

- **最小権限の原則**: 業務遂行に必要最小限の権限のみを付与
- **職務分離**: リリース実行者と承認者を分離
- **定期レビュー**: 四半期ごとに権限設定を見直し
- **一時権限**: 緊急対応時の権限昇格は事後申請・承認必須
- **操作ログ**: すべての特権操作はログに記録し、監査対象とする

### アカウント管理

- **個人アカウント**: 運用作業は個人アカウントで実施(共有アカウント禁止)
- **システムアカウント**: バッチ・自動処理用の専用アカウント
- **緊急用アカウント**: break-glass アカウントは物理的に隔離された場所に保管
- **パスワードポリシー**: 12文字以上、90日ごとに変更、多要素認証必須

---

## コミュニケーション・報告体制

### 定例報告

| 報告種別 | 頻度 | 参加者 | 内容 |
|---------|------|-------|------|
| 日次報告 | 毎日 | 運用チーム、運用責任者 | 前日の障害・インシデント、バッチ実行結果 |
| 週次報告 | 毎週月曜 | 運用責任者、保守開発リーダー | 週間稼働状況、課題事項、対応計画 |
| 月次報告 | 毎月第1営業日 | 全関係者、サービスオーナー | SLA達成状況、月間統計、改善提案 |

### 障害時の連絡フロー

```mermaid
graph LR
    A[障害検知] --> B{重大度判定}
    B -->|Critical| C[即時エスカレーション<br/>運用責任者+開発リーダー]
    B -->|High| D[1時間以内に<br/>運用責任者へ報告]
    B -->|Medium| E[4時間以内に<br/>定例報告で共有]
    B -->|Low| F[翌営業日<br/>定例報告で共有]
    
    C --> G[サービスオーナーへ報告<br/>影響大の場合]
```

### 連絡手段

- **即時連絡**: Slack(#alert-critical チャンネル)、電話、SMS
- **通常連絡**: Slack(#ops-general チャンネル)、メール
- **記録**: チケットシステム(JIRA Service Management)に全件記録

---

## SLAKPI管理

### SLA(Service Level Agreement)

| 指標 | 目標値 | 測定方法 |
|------|--------|---------|
| 稼働率 | 99.9% 以上 | 月間総時間 - 障害停止時間 / 月間総時間 |
| 障害対応時間(Critical) | 15分以内に初動対応開始 | 検知時刻 - 対応開始時刻 |
| 障害復旧時間(Critical) | 4時間以内 | 検知時刻 - 復旧完了時刻 |
| バッチ実行成功率 | 99.5% 以上 | 成功ジョブ数 / 総ジョブ数 |

### KPI(Key Performance Indicator)

| 指標 | 目標値 | 確認頻度 |
|------|--------|---------|
| MTBF(平均故障間隔) | 720時間以上 | 月次 |
| MTTR(平均復旧時間) | 2時間以内 | 月次 |
| インシデント件数 |10件以下 | 月次 |
| 変更失敗率 | 5%以下 | 月次 |
| 計画外停止時間 |2時間以内 | 月次 |

### 測定・報告

- 月次でSLAKPIを集計し、運用責任者が経営層へ報告
- 目標未達の場合は原因分析と改善計画を策定
- 四半期ごとにSLAKPIの妥当性を見直し

---

## 運用ドキュメント管理

### ドキュメント体系

```mermaid
graph TD
    A[運用ドキュメント] --> B[設計書]
    A --> C[手順書]
    A --> D[記録]
    
    B --> B1[基本設計書]
    B --> B2[詳細設計書]
    B --> B3[運用設計書]
    
    C --> C1[運用手順書]
    C --> C2[障害対応手順書]
    C --> C3[リリース手順書]
    C --> C4[バックアップ・リストア手順書]
    
    D --> D1[運用日誌]
    D --> D2[障害報告書]
    D --> D3[変更管理記録]
    D --> D4[定期点検記録]
```

### ドキュメント管理ルール

- **保管場所**: Confluence、SharePoint などの文書管理システム
- **バージョン管理**: すべてのドキュメントはバージョン番号と更新日を明記
- **レビュー**:1回または重大変更時にドキュメントの妥当性を確認
- **アクセス権**: 役割に応じたアクセス権を設定(読取専用 / 編集可能)

---

## 教育・訓練計画

### 教育プログラム

| 対象 | 内容 | 頻度 | 実施方法 |
|------|------|------|---------|
| 新規運用担当者 | システム概要、運用手順、ツール操作 | 着任時 | OJT + e-learning |
| 全運用担当者 | 障害対応シミュレーション | 半期に1| 演習 |
| 全運用担当者 | セキュリティ教育 |1| e-learning |
| 運用責任者 | インシデント管理、エスカレーション |1| 研修 |

### 訓練計画

- **障害対応訓練**:2回、想定シナリオに基づく障害対応演習を実施
- **リリース訓練**: リリース前に本番環境を模した環境でリハーサル実施
- **DR訓練**:1回、災害復旧シナリオに基づく訓練を実施

---

## 継続的改善

### 改善活動の流れ

```mermaid
graph LR
    A[運用実績の収集] --> B[問題点の抽出]
    B --> C[改善施策の立案]
    C --> D[承認・実施]
    D --> E[効果測定]
    E --> A
```

### 改善提案の受付

- 運用担当者は日常業務で気づいた改善点を随時提案
- 月次運用会議で改善提案を審議し、優先度を決定
- 承認された改善施策は四半期計画に組み込む

### 振り返り(ポストモーテム)

- 重大インシデント発生時は事後レビューを実施
- 原因分析、対応の評価、再発防止策を文書化
- 得られた知見は運用手順書・FAQ に反映

---

🔄 設計の進め方・プロセス


🏗️ プロセス1: 運用要件の確認と体制方針の策定

設計対象:

要件定義書や非機能要件から運用に関する要求事項を抽出し、運用体制の基本方針を決定する。

具体例:

  • 可用性要件(稼働率、サービス提供時間帯、計画停止の許容範囲)の確認
  • 保守対応要件(対応時間帯、応答時間、復旧時間目標)の確認
  • 運用人員の規模・スキルレベル・配置(24時間体制 or オンコール体制)の決定
  • 運用部門と開発部門の基本的な役割分担方針の決定

設計原則:

  • 要件との整合性: 非機能要件(可用性・保守性・運用性)に基づいた実現可能な体制を構築する
  • 現実的な体制設計: 組織の実態、人員リソース、予算制約を踏まえた無理のない体制とする
  • 段階的な体制構築: 初期は最小限の体制でスタートし、運用実績に応じて段階的に拡充する方針も検討する
  • 明確な責務分界: 運用部門と開発部門の責務が重複・欠落しないよう明確に線引きする

文書化の推奨表現:

  • 運用要件のサマリー: 要件定義書から抽出した運用関連要件を一覧表で整理する
  • 体制方針の記述: 採用する運用体制(24時間監視体制、オンコール体制など)とその理由を明記する
  • 代替案の比較: 検討した複数の体制案(例: フル24時間体制 vs オンコール体制)を比較し、選定理由を記録する
🏗️ プロセス2: 運用組織と役割の定義

設計対象:

運用に関わる組織・役割を具体的に定義し、各役割の責務、権限、稼働時間を明確にする。

具体例:

  • 運用体制図の作成(サービスオーナー、運用責任者、一次対応、二次対応、三次対応など)
  • 各役割の責務定義(監視、障害対応、バッチ実行、リリース作業など)
  • エスカレーションフローの設計(一次→二次→三次へのエスカレーション条件と手順)
  • 稼働時間・対応時間帯の定義(平日日中、24時間365日、オンコールなど)

設計原則:

  • 役割の明確化: 各役割の責務範囲を明確にし、責任の所在が曖昧にならないようにする
  • 実効性の確保: 定義した役割が実際の組織・人員で実現可能か、現実的な配置かを検証する
  • エスカレーションの実効性: エスカレーション手順が実際に機能するか、連絡手段・判断基準が明確かを確認する
  • 単一障害点の排除: 特定の個人に依存しない体制(バックアップ要員の確保)を設計する

文書化の推奨表現:

  • 運用体制図: Mermaidなどで視覚的に組織構造とエスカレーションフローを表現する
  • 役割定義表: 役割名、責務、担当者/チーム、稼働時間を一覧表で整理する
  • 責務分界表: 運用部門と開発部門の作業分類ごとの責務分担を表形式で明示する
🏗️ プロセス3: 権限管理とSLA/KPIの定義

設計対象:

各役割に付与するアクセス権限を定義し、運用の品質目標(SLA/KPI)を設定する。

具体例:

  • アクセス権限マトリクスの作成(本番DB、サーバー、デプロイ実行などの権限)
  • 権限管理ルールの策定(最小権限の原則、職務分離、定期レビュー、操作ログ)
  • SLAの設定(稼働率、障害対応時間、復旧時間、バッチ成功率など)
  • KPIの設定(MTBF、MTTR、インシデント件数、変更失敗率など)

設計原則:

  • 最小権限の原則: 業務遂行に必要最小限の権限のみを付与し、過剰な権限付与を避ける
  • 職務分離: リリース実行者と承認者を分離するなど、内部統制を確保する
  • 測定可能な目標: SLA/KPIは測定可能で、達成可能な現実的な数値目標とする
  • 継続的な見直し: 運用実績に基づき、四半期ごとなど定期的にSLA/KPIの妥当性を見直す

文書化の推奨表現:

  • 権限マトリクス: 役割ごとの権限を表形式で一覧化する
  • SLA/KPI定義表: 指標名、目標値、測定方法、確認頻度を明記する
  • 測定・報告プロセス: SLA/KPIの集計方法、報告タイミング、未達時の対応を記述する
🏗️ プロセス4: 運用ドキュメント・教育・改善の仕組み

設計対象:

運用の継続性を担保するための仕組み(ドキュメント管理、教育訓練、継続的改善)を設計する。

具体例:

  • 運用ドキュメント体系の定義(設計書、手順書、記録の分類と管理方法)
  • 教育プログラムの策定(新規着任時の教育、定期的な訓練、スキルアップ研修)
  • 訓練計画の策定(障害対応訓練、リリース訓練、DR訓練の実施計画)
  • 継続的改善の仕組み(運用実績の収集、問題点の抽出、改善施策の立案サイクル)

設計原則:

  • ドキュメントの一元管理: ドキュメントの保管場所、バージョン管理、アクセス権を明確にする
  • 実践的な教育: 座学だけでなく、OJTや実践的なシミュレーション演習を組み込む
  • 定期的な訓練: 年1~2回など定期的に障害対応やDR訓練を実施し、体制の実効性を検証する
  • 改善文化の醸成: 運用担当者が気づいた改善点を提案しやすい仕組みを作る

文書化の推奨表現:

  • ドキュメント体系図: Mermaidで運用ドキュメントの分類と関係性を視覚化する
  • 教育訓練計画表: 対象、内容、頻度、実施方法を一覧表で整理する
  • 改善プロセス図: 運用実績の収集から改善実施までのサイクルを図示する

🚨 よくある失敗と予防策 


🚧 実例収集後、追記予定

📚 参考資料・関連リンク


  • 参考文献: 『ITILファンデーション』、『Site Reliability Engineering』、『インシデント管理実践ガイド』
  • 関連する他のガイド: インフラ設計ガイド、監視設計ガイド、バックアップ・リカバリ設計ガイド、セキュリティ設計ガイド
  • ツール・テンプレート: draw.io、Mermaid(体制図・フロー図作成)、運用体制テンプレート


テンプレートサイト: 📄Arrow icon of a page linkテンプレート集