[re:Invent 2023 レポート] SAPシステムのレジリエンスを高めるためにやったこと

この記事を書いたメンバー:

那須 隆

[re:Invent 2023 レポート] SAPシステムのレジリエンスを高めるためにやったこと

目次

こんにちは、那須です。

今年もSAPの事例を集めるべく、ラスベガスにやってきました。昨年よりはちょっとSAP関連のセッションが少ない気がしますが、参加できるものは参加してレポートしたいと思います。


参加セッション

SUP312 | Improve resilience of SAP workloads with AWS Support

  • セッション紹介

Join this session to learn how a leading manufacturing company collaborated with AWS Support to improve the resilience of mission-critical SAP workloads on AWS. Find out more about resilience programs from AWS Support including tabletop exercises, deep-dive runbook reviews, and fault testing to test, validate, and improve recovery point objective (RPO) and recovery time objective (RTO). Hear firsthand how AWS worked with the company to modernize resilience management using AWS Resilience Hub for resilience management and operations, AWS Fault Injection Simulator for testing and validating recovery, and Amazon CloudWatch Application Insights for SAP availability monitoring.

  • セッション紹介(DeepL による翻訳)

本セッションでは、ある大手製造業がAWSサポートと連携し、AWS上のミッションクリティカルなSAPワークロードの耐障害性をどのように改善したかをご紹介します。AWSサポートが提供する、卓上演習、深く掘り下げたランブックのレビュー、障害テストを含む回復力プログラムの詳細をご覧いただき、回復時点目標(RPO)と回復時間目標(RTO)をテスト、検証、改善します。また、AWS Resilience Hubによるレジリエンス管理と運用、AWS Fault Injection Simulatorによるリカバリのテストと検証、Amazon CloudWatch Application InsightsによるSAPの可用性監視など、AWSがどのようにレジリエンス管理の近代化に取り組んだかをご紹介します。


概要

3M社がAWSサポートとともにSAPシステムの耐障害性を向上させた事例セッションです。最初はAWSの方から一般的な説明から始まりました。最初はこのスライドです。これを見るたびに障害はいつ発生してもおかしくないな、と再認識させられますね。

そしてこれです。Resilience equals revenue。ダウンタイムがなければ売上があげられたり業務を遂行できたりするわけで、ダウンしていると当然その機会が失われます。そのことは我々エンジニアも常に意識しておいた方がいいと思います。実体験があるとなおいいですね。

レジリエンスについての説明がありましたが、これらのサービスを使いこなすことがレジリエンスを高めることにつながるというような案内がありました。

  • W-A Framework - SAP Lens
  • AWS Health
  • AWS Trusted Advisor
  • AWS Resilience Hub
  • AWS Fault Injection Simulator(以降、FIS。スライドではServiceとなってますが)
  • Amazon CloudWatch

ここから3M社の事例が始まります。まずはHA構成の紹介から。我々もよく見る構成ですが、3AZでHAが構成されていますね。SAPの案件を見ていると2AZで構成されていることがよくありますが、このようにして3AZを構成すると同じリージョン内で一部ですがDRのような構成にできます。

レジリエンスをどのように評価するかですが、Resilience Hubを活用することが案内されていました。後に紹介するFISと一緒に活用すると、RPOやRTOなどの評価に使えるとのことでした。

FISでは障害をシミュレーションできるのですが、そのテスト項目と評価基準について紹介されました。こういう障害が発生したらこうなるはずだ、と事前に定義したものと、FISのシミュレーションを実行してその結果を比較していく地道な運用ですが、こういう地道な運用での活動がレジリエンスを高めるんだなと思いました。ここまでしっかり定期的にシミュレーションできていれば人が入れ替わってもある程度運用品質を保った状態で運用できるはずなので、これは本当に素晴らしいと思います。

さいごに、3M社のレジリエンスを高めるための思いがつまった内容が発表されました。インシデント対応、ランブックのレビュー、レジリエンスの管理、テスト、そしてオブザーバビリティと、それぞれお話いただきました。特にランブックについては、このre:Invent開催中にSystems Manager AutomationでStep Functionsのようなビュー(https://aws.amazon.com/jp/about-aws/whats-new/2023/11/aws-systems-manager-automation-author-runbooks/)が提供されましたので、これまでAutomationドキュメントを作成するのはなかなか大変でしたがこれでちょっとは作りやすくなったと思います。昨年はSSM AutomationやめてStep Functionにしようと思いましたが、やっぱりSSM Automationで頑張ってみようと思いました。

なにより、定期的に障害テストを実施してその結果を数字で見れるようにしておくことは、運用観点とビジネスの観点の両方において重要です。最近はオブザーバビリティのことをよく話しますが、このような情報を関係者全員で共有しておくこともとてもよいことです。

Call to actionでEnterprise Support Reiliency Program for SAPというものが紹介されました。3M社が行ってきたような内容をサポートしてくれるのでしょうか。Prepared for Enterprise Support Customersとあるので、特定のサポート契約があればこのような支援が受けられるのかもしれません。


さいごに

レジリエンスを高めるための3M社の活動についてご紹介しました。日本ではなかなかここまでできている方は少ないのではないでしょうか。感覚的に把握するのではなく定量的に数字として状況を把握することで、本当はどうなっていてどんな活動をしなければいけないのか、どんな運用をしなければいけないのかを理解することができます。私も全然できていませんが、運用に関わる人間としてこういうことを実践していこうと思いました。

カテゴリー
タグ

SAPシステムや基幹システムのクラウド移行・構築・保守、
DXに関して
お気軽にご相談ください

03-6260-6240 (受付時間 平日9:30〜18:00)