[テンプレ]運用の基本方針・体制

関連テンプレ構成

テンプレート
# 運用の基本方針・体制

## 本章の目的

本章では、システムの安定運用を実現するために必要な運用体制、役割分担、責務範囲を定義する。

## 運用要件の要約

本システムの運用要件は、要件定義書に記載された以下の項目に基づく。

- **可用性要件**: 稼働率 99.9% 以上、計画停止は月次メンテナンス時のみ
- **運用時間帯**: 24時間365日のサービス提供
- **保守対応**: 平日9:00-18:00は即時対応、夜間・休日はオンコール体制
- **バックアップ**: 日次フルバックアップ、保持期間30日

詳細は要件定義書を参照。

---

## 運用体制

### 運用体制図

```mermaid
graph TB
    Owner[サービスオーナー<br/>経営層]
    Manager[運用責任者<br/>システム部長]
    
    L1[一次対応<br/>運用チーム]
    L2[二次対応<br/>保守開発チーム]
    L3[三次対応<br/>ベンダー・専門家]
    
    Monitor[監視担当<br/>24h365d]
    Ops[運用オペレーター<br/>平日日中]
    
    Owner --> Manager
    Manager --> L1
    Manager --> Monitor
    L1 --> Ops
    L1 -.エスカレーション.-> L2
    L2 -.エスカレーション.-> L3
    Monitor -.障害検知.-> L1
```

### 運用組織の役割定義

| 役割 | 責務 | 担当者/チーム | 稼働時間 |
|------|------|--------------|---------|
| サービスオーナー | 最終意思決定、予算承認、重大障害時の判断 | 経営層 | - |
| 運用責任者 | 運用全体の統括、SLA管理、改善施策の立案 | システム部長 | 平日 9:00-18:00 |
| 一次対応 | 障害の初動対応、ログ収集、切り分け | 運用チーム | 24時間365日(オンコール) |
| 二次対応 | 詳細調査、暫定対応、恒久対応の実施 | 保守開発チーム | 平日 9:00-18:00 + オンコール |
| 三次対応 | 高度な技術支援、製品バグ対応 | ベンダー・専門家 | 契約による |
| 監視担当 | システム監視、アラート対応、初期トリアージ | 監視チーム | 24時間365|
| 運用オペレーター | 定型作業、バッチ実行、データ投入 | 運用チーム | 平日 9:00-18:00 |

---

## 運用部門と保守・開発部門の責務分界

### 責務分界の基本原則

- **運用部門**: システムの安定稼働維持、定型作業、監視、一次対応
- **保守・開発部門**: 障害の根本原因調査、恒久対応、機能改善、リリース作業

### 詳細責務分界表

| 作業分類 | 作業内容 | 運用部門 | 保守開発部門 | 備考 |
|---------|---------|---------|-------------|------|
| **日常運用** | システム監視 || - | 24h365d |
| | バッチ実行・確認 || - | |
| | データ投入・修正 ||| 複雑なケースは開発部門 |
| | ユーザー問い合わせ対応 ||| 技術的内容は開発部門 |
| **障害対応** | 障害検知・初動対応 || - | |
| | 切り分け・ログ収集 || - | |
| | 詳細調査・根本原因分析 ||| |
| | 暫定対応実施 ||| 状況に応じて協働 |
| | 恒久対応(修正リリース) | - || |
| **メンテナンス** | 定期メンテナンス計画 ||| |
| | メンテナンス作業実施 ||| 技術的作業は開発部門 |
| | パラメータ変更 ||| 影響大の場合は開発部門 |
| **リリース** | リリース計画策定 ||| |
| | リリース作業実施 ||| 協働実施 |
| | リリース後動作確認 ||| |
| **改善・最適化** | 性能チューニング ||| |
| | 運用改善提案 || - | |
| | システム改善開発 | - || |

凡例:= 主担当、△ = 支援・協力、- = 対象外

---

## 権限ロール定義

### アクセス権限マトリクス

| ロール | 本番DB<br/>参照 | 本番DB<br/>更新 | サーバー<br/>ログイン | システム<br/>設定変更 | デプロイ<br/>実行 | 監視画面<br/>閲覧 |
|--------|---------------|---------------|-------------------|-------------------|----------------|----------------|
| 監視オペレーター | - | - | - | - | - ||
| 運用オペレーター ||| - | - | - ||
| 運用管理者 |||||||
| 開発者 || - || - | - ||
| 保守担当者 |||||||
| システム管理者 |||||||

凡例:= 権限あり、△ = 承認後に実施可能、- = 権限なし

### 権限管理ルール

- **最小権限の原則**: 業務遂行に必要最小限の権限のみを付与
- **職務分離**: リリース実行者と承認者を分離
- **定期レビュー**: 四半期ごとに権限設定を見直し
- **一時権限**: 緊急対応時の権限昇格は事後申請・承認必須
- **操作ログ**: すべての特権操作はログに記録し、監査対象とする

### アカウント管理

- **個人アカウント**: 運用作業は個人アカウントで実施(共有アカウント禁止)
- **システムアカウント**: バッチ・自動処理用の専用アカウント
- **緊急用アカウント**: break-glass アカウントは物理的に隔離された場所に保管
- **パスワードポリシー**: 12文字以上、90日ごとに変更、多要素認証必須

---

## コミュニケーション・報告体制

### 定例報告

| 報告種別 | 頻度 | 参加者 | 内容 |
|---------|------|-------|------|
| 日次報告 | 毎日 | 運用チーム、運用責任者 | 前日の障害・インシデント、バッチ実行結果 |
| 週次報告 | 毎週月曜 | 運用責任者、保守開発リーダー | 週間稼働状況、課題事項、対応計画 |
| 月次報告 | 毎月第1営業日 | 全関係者、サービスオーナー | SLA達成状況、月間統計、改善提案 |

### 障害時の連絡フロー

```mermaid
graph LR
    A[障害検知] --> B{重大度判定}
    B -->|Critical| C[即時エスカレーション<br/>運用責任者+開発リーダー]
    B -->|High| D[1時間以内に<br/>運用責任者へ報告]
    B -->|Medium| E[4時間以内に<br/>定例報告で共有]
    B -->|Low| F[翌営業日<br/>定例報告で共有]
    
    C --> G[サービスオーナーへ報告<br/>影響大の場合]
```

### 連絡手段

- **即時連絡**: Slack(#alert-critical チャンネル)、電話、SMS
- **通常連絡**: Slack(#ops-general チャンネル)、メール
- **記録**: チケットシステム(JIRA Service Management)に全件記録

---

## SLAKPI管理

### SLA(Service Level Agreement)

| 指標 | 目標値 | 測定方法 |
|------|--------|---------|
| 稼働率 | 99.9% 以上 | 月間総時間 - 障害停止時間 / 月間総時間 |
| 障害対応時間(Critical) | 15分以内に初動対応開始 | 検知時刻 - 対応開始時刻 |
| 障害復旧時間(Critical) | 4時間以内 | 検知時刻 - 復旧完了時刻 |
| バッチ実行成功率 | 99.5% 以上 | 成功ジョブ数 / 総ジョブ数 |

### KPI(Key Performance Indicator)

| 指標 | 目標値 | 確認頻度 |
|------|--------|---------|
| MTBF(平均故障間隔) | 720時間以上 | 月次 |
| MTTR(平均復旧時間) | 2時間以内 | 月次 |
| インシデント件数 |10件以下 | 月次 |
| 変更失敗率 | 5%以下 | 月次 |
| 計画外停止時間 |2時間以内 | 月次 |

### 測定・報告

- 月次でSLAKPIを集計し、運用責任者が経営層へ報告
- 目標未達の場合は原因分析と改善計画を策定
- 四半期ごとにSLAKPIの妥当性を見直し

---

## 運用ドキュメント管理

### ドキュメント体系

```mermaid
graph TD
    A[運用ドキュメント] --> B[設計書]
    A --> C[手順書]
    A --> D[記録]
    
    B --> B1[基本設計書]
    B --> B2[詳細設計書]
    B --> B3[運用設計書]
    
    C --> C1[運用手順書]
    C --> C2[障害対応手順書]
    C --> C3[リリース手順書]
    C --> C4[バックアップ・リストア手順書]
    
    D --> D1[運用日誌]
    D --> D2[障害報告書]
    D --> D3[変更管理記録]
    D --> D4[定期点検記録]
```

### ドキュメント管理ルール

- **保管場所**: Confluence、SharePoint などの文書管理システム
- **バージョン管理**: すべてのドキュメントはバージョン番号と更新日を明記
- **レビュー**:1回または重大変更時にドキュメントの妥当性を確認
- **アクセス権**: 役割に応じたアクセス権を設定(読取専用 / 編集可能)

---

## 教育・訓練計画

### 教育プログラム

| 対象 | 内容 | 頻度 | 実施方法 |
|------|------|------|---------|
| 新規運用担当者 | システム概要、運用手順、ツール操作 | 着任時 | OJT + e-learning |
| 全運用担当者 | 障害対応シミュレーション | 半期に1| 演習 |
| 全運用担当者 | セキュリティ教育 |1| e-learning |
| 運用責任者 | インシデント管理、エスカレーション |1| 研修 |

### 訓練計画

- **障害対応訓練**:2回、想定シナリオに基づく障害対応演習を実施
- **リリース訓練**: リリース前に本番環境を模した環境でリハーサル実施
- **DR訓練**:1回、災害復旧シナリオに基づく訓練を実施

---

## 継続的改善

### 改善活動の流れ

```mermaid
graph LR
    A[運用実績の収集] --> B[問題点の抽出]
    B --> C[改善施策の立案]
    C --> D[承認・実施]
    D --> E[効果測定]
    E --> A
```

### 改善提案の受付

- 運用担当者は日常業務で気づいた改善点を随時提案
- 月次運用会議で改善提案を審議し、優先度を決定
- 承認された改善施策は四半期計画に組み込む

### 振り返り(ポストモーテム)

- 重大インシデント発生時は事後レビューを実施
- 原因分析、対応の評価、再発防止策を文書化
- 得られた知見は運用手順書・FAQ に反映

---
プレビュー

運用の基本方針・体制

本章の目的

本章では、システムの安定運用を実現するために必要な運用体制、役割分担、責務範囲を定義する。

運用要件の要約

本システムの運用要件は、要件定義書に記載された以下の項目に基づく。

  • 可用性要件: 稼働率 99.9% 以上、計画停止は月次メンテナンス時のみ
  • 運用時間帯: 24時間365日のサービス提供
  • 保守対応: 平日9:00-18:00は即時対応、夜間・休日はオンコール体制
  • バックアップ: 日次フルバックアップ、保持期間30日

詳細は要件定義書を参照。


運用体制

運用体制図
graph TB
    Owner[サービスオーナー<br/>経営層]
    Manager[運用責任者<br/>システム部長]

    L1[一次対応<br/>運用チーム]
    L2[二次対応<br/>保守開発チーム]
    L3[三次対応<br/>ベンダー・専門家]

    Monitor[監視担当<br/>24h365d]
    Ops[運用オペレーター<br/>平日日中]

    Owner --> Manager
    Manager --> L1
    Manager --> Monitor
    L1 --> Ops
    L1 -.エスカレーション.-> L2
    L2 -.エスカレーション.-> L3
    Monitor -.障害検知.-> L1
運用組織の役割定義
役割 責務 担当者/チーム 稼働時間
サービスオーナー 最終意思決定、予算承認、重大障害時の判断 経営層 -
運用責任者 運用全体の統括、SLA管理、改善施策の立案 システム部長 平日 9:00-18:00
一次対応 障害の初動対応、ログ収集、切り分け 運用チーム 24時間365日(オンコール)
二次対応 詳細調査、暫定対応、恒久対応の実施 保守開発チーム 平日 9:00-18:00 + オンコール
三次対応 高度な技術支援、製品バグ対応 ベンダー・専門家 契約による
監視担当 システム監視、アラート対応、初期トリアージ 監視チーム 24時間365日
運用オペレーター 定型作業、バッチ実行、データ投入 運用チーム 平日 9:00-18:00

運用部門と保守・開発部門の責務分界

責務分界の基本原則
  • 運用部門: システムの安定稼働維持、定型作業、監視、一次対応
  • 保守・開発部門: 障害の根本原因調査、恒久対応、機能改善、リリース作業
詳細責務分界表
作業分類 作業内容 運用部門 保守開発部門 備考
日常運用 システム監視 - 24h365d
バッチ実行・確認 -
データ投入・修正 複雑なケースは開発部門
ユーザー問い合わせ対応 技術的内容は開発部門
障害対応 障害検知・初動対応 -
切り分け・ログ収集 -
詳細調査・根本原因分析
暫定対応実施 状況に応じて協働
恒久対応(修正リリース) -
メンテナンス 定期メンテナンス計画
メンテナンス作業実施 技術的作業は開発部門
パラメータ変更 影響大の場合は開発部門
リリース リリース計画策定
リリース作業実施 協働実施
リリース後動作確認
改善・最適化 性能チューニング
運用改善提案 -
システム改善開発 -

凡例: ● = 主担当、△ = 支援・協力、- = 対象外


権限ロール定義

アクセス権限マトリクス
ロール 本番DB
参照
本番DB
更新
サーバー
ログイン
システム
設定変更
デプロイ
実行
監視画面
閲覧
監視オペレーター - - - - -
運用オペレーター - - -
運用管理者
開発者 - - -
保守担当者
システム管理者

凡例: ● = 権限あり、△ = 承認後に実施可能、- = 権限なし

権限管理ルール
  • 最小権限の原則: 業務遂行に必要最小限の権限のみを付与
  • 職務分離: リリース実行者と承認者を分離
  • 定期レビュー: 四半期ごとに権限設定を見直し
  • 一時権限: 緊急対応時の権限昇格は事後申請・承認必須
  • 操作ログ: すべての特権操作はログに記録し、監査対象とする
アカウント管理
  • 個人アカウント: 運用作業は個人アカウントで実施(共有アカウント禁止)
  • システムアカウント: バッチ・自動処理用の専用アカウント
  • 緊急用アカウント: break-glass アカウントは物理的に隔離された場所に保管
  • パスワードポリシー: 12文字以上、90日ごとに変更、多要素認証必須

コミュニケーション・報告体制

定例報告
報告種別 頻度 参加者 内容
日次報告 毎日 運用チーム、運用責任者 前日の障害・インシデント、バッチ実行結果
週次報告 毎週月曜 運用責任者、保守開発リーダー 週間稼働状況、課題事項、対応計画
月次報告 毎月第1営業日 全関係者、サービスオーナー SLA達成状況、月間統計、改善提案
障害時の連絡フロー
graph LR
    A[障害検知] --> B{重大度判定}
    B -->|Critical| C[即時エスカレーション<br/>運用責任者+開発リーダー]
    B -->|High| D[1時間以内に<br/>運用責任者へ報告]
    B -->|Medium| E[4時間以内に<br/>定例報告で共有]
    B -->|Low| F[翌営業日<br/>定例報告で共有]

    C --> G[サービスオーナーへ報告<br/>影響大の場合]
連絡手段
  • 即時連絡: Slack(#alert-critical チャンネル)、電話、SMS
  • 通常連絡: Slack(#ops-general チャンネル)、メール
  • 記録: チケットシステム(JIRA Service Management)に全件記録

SLA・KPI管理

SLA(Service Level Agreement)
指標 目標値 測定方法
稼働率 99.9% 以上 月間総時間 - 障害停止時間 / 月間総時間
障害対応時間(Critical) 15分以内に初動対応開始 検知時刻 - 対応開始時刻
障害復旧時間(Critical) 4時間以内 検知時刻 - 復旧完了時刻
バッチ実行成功率 99.5% 以上 成功ジョブ数 / 総ジョブ数
KPI(Key Performance Indicator)
指標 目標値 確認頻度
MTBF(平均故障間隔) 720時間以上 月次
MTTR(平均復旧時間) 2時間以内 月次
インシデント件数 月10件以下 月次
変更失敗率 5%以下 月次
計画外停止時間 月2時間以内 月次
測定・報告
  • 月次でSLA・KPIを集計し、運用責任者が経営層へ報告
  • 目標未達の場合は原因分析と改善計画を策定
  • 四半期ごとにSLA・KPIの妥当性を見直し

運用ドキュメント管理

ドキュメント体系
graph TD
    A[運用ドキュメント] --> B[設計書]
    A --> C[手順書]
    A --> D[記録]

    B --> B1[基本設計書]
    B --> B2[詳細設計書]
    B --> B3[運用設計書]

    C --> C1[運用手順書]
    C --> C2[障害対応手順書]
    C --> C3[リリース手順書]
    C --> C4[バックアップ・リストア手順書]

    D --> D1[運用日誌]
    D --> D2[障害報告書]
    D --> D3[変更管理記録]
    D --> D4[定期点検記録]
ドキュメント管理ルール
  • 保管場所: Confluence、SharePoint などの文書管理システム
  • バージョン管理: すべてのドキュメントはバージョン番号と更新日を明記
  • レビュー: 年1回または重大変更時にドキュメントの妥当性を確認
  • アクセス権: 役割に応じたアクセス権を設定(読取専用 / 編集可能)

教育・訓練計画

教育プログラム
対象 内容 頻度 実施方法
新規運用担当者 システム概要、運用手順、ツール操作 着任時 OJT + e-learning
全運用担当者 障害対応シミュレーション 半期に1回 演習
全運用担当者 セキュリティ教育 年1回 e-learning
運用責任者 インシデント管理、エスカレーション 年1回 研修
訓練計画
  • 障害対応訓練: 年2回、想定シナリオに基づく障害対応演習を実施
  • リリース訓練: リリース前に本番環境を模した環境でリハーサル実施
  • DR訓練: 年1回、災害復旧シナリオに基づく訓練を実施

継続的改善

改善活動の流れ
graph LR
    A[運用実績の収集] --> B[問題点の抽出]
    B --> C[改善施策の立案]
    C --> D[承認・実施]
    D --> E[効果測定]
    E --> A
改善提案の受付
  • 運用担当者は日常業務で気づいた改善点を随時提案
  • 月次運用会議で改善提案を審議し、優先度を決定
  • 承認された改善施策は四半期計画に組み込む
振り返り(ポストモーテム)
  • 重大インシデント発生時は事後レビューを実施
  • 原因分析、対応の評価、再発防止策を文書化
  • 得られた知見は運用手順書・FAQ に反映