AI解説

arXiv 版（全文）: https://arxiv.org/abs/2101.05782（実装: https://github.com/dirac-institute/elsa、デモ動画: dirac.us/5aj） 情報源: arXiv 全文（PDF・4頁）を精読して記述。本文に書かれていない事項は書いていない。

一言で

JupyterHub にユーザ単位のチェックポイント・リストア・ライブマイグレーションを実装した概念実証 Elsa。稼働中の Jupyter セッション（メモリ・レジスタ・開いているファイル）をまるごと凍結してディスクへ退避し、後で同じ／別の VM に復元できる。土台は CRIU（podman 経由）。アイドルセッションを終了せず退避することと、スポットインスタンス活用とで、年間コストを約 17 倍削減（24/7 で $3364 → C/R で $505 → スポット併用で $196）しつつユーザ体験を損なわない。

背景・問題

データセットが巨大化し、「データのある側（アーカイブ施設）でサーバサイド計算する」リモート解析（science platform、多くは Jupyter）が普及した。するとデータ提供者がストレージだけでなく計算（ユーザのノートブック実行）のコストも負う。論文の具体例では、100 ユーザを 24/7 で動かすと年 $300,000 超に膨らむ。素朴な対策は「非アクティブなインスタンスを終了する」ことだが、ユーザ体験が悪化する（作業が消え、開き直しが要る）。

問題は「実行中の Jupyter セッションを、ユーザを切断せず・作業を失わせずに退避／別マシンへ移す標準手段がない」こと。これを解けば、コストを大きく下げつつ体験を保てる。

提案手法

アーキテクチャ

JupyterHub フロントエンドは専用ノード 1 台で、ほぼ無改造の upstream コンテナイメージから動かす。
主要なカスタマイズは新しい Spawner クラスの追加だけ（設定レベル）。当時は CRIU の pod C/R を Kubernetes が未サポートだったため K8s は使わず、spawner がユーザごとにクラウドの生 VM を 1 台ずつ確保して Jupyter を起動・停止する。生 VM にした副次的利点として、VM 単位の隔離で体験が予測可能・swap で OOM を「ソフト失敗」化・プロビジョニングが K8s オートスケーラより速い、を挙げる。
各ユーザの Jupyter は生 VM 上でもコンテナで動かす（podman 管理）。これで Linux ディストリの差を吸収し、標準ノートブックコンテナを使え、デプロイが pull だけで済み、VM をユーザ間で安全に再利用できる。

C/R の実体 — Spawner の start/stop を乗っ取る

コンテナ管理に podman を使う。podman は CRIU（Checkpoint/Restore In Userspace）によるコンテナチェックポイントを内蔵する。Elsa は JupyterHub の Spawner の start / stop API を乗っ取る（hijack）：

start を受けたら、過去のチェックポイントがあればそこから復元する。
stop を受けたら、停止する代わりにチェックポイントを取る。

論文自身が「これは便利なハック（convenient hack）であり、本来は JupyterHub に専用の C/R API を入れるべき」と述べている。

共有 NFS と UI

各 VM は共有 NFS サーバのディスクをマウントし、/home をユーザのコンテナ内ボリュームとして見せる。別マシンで復元しても /home が inode レベルで同一になる（チェックポイント復元の要件）ことを、共有 /home で素直に解決する。チェックポイント自体もこの NFS に集約保存する。
ユーザ向けには、nbresuse という既存 Jupyter 拡張に 「pause」（＝チェックポイント）と 「fast forward」（＝別 VM 種別へのマイグレーション開始）の 2 ボタンを足しただけ。

実装・移植性

プロトタイプは Digital Ocean (DO) 上に構築・デプロイ。spawner が DO の API で VM を管理するためそのままでは他クラウドで動かないが、AWS / GCP への拡張は 約 50 行程度で可能、将来対応予定とする。

数式・アルゴリズム

最適化ではなくシステム機構の実証なので定式化はない。性能はチェックポイント／リストアが O(10s)、ライブマイグレーションは O(1s) への道筋、と桁で示すのみ。コストは下記の実額表で示す。

実験・結果

コスト（AWS 価格、2020/11/4 時点、m5.2xlarge 8コア/32GB の年額）：
- 24×7×365 オンデマンド（理想体験）：$3364
- ＋C/R、デューティ比 15%（観測された典型値、非アクティブ時はチェックポイント保存）：$505
- ＋スポットインスタンス（回収時に透過マイグレーション）：$196
- 削減は約 17 倍。典型ユーザのインスタンスが年 $200 程度で済み、24/7 運用と体験は同等。要旨ではこれを「アイドル退避で 4 倍以上、スポット併用でさらに最大 3 倍」と表現している。
到達点：著者らの知る限り、JupyterHub 上の Jupyter ノートブックに対する初の完全動作する C/R・マイグレーション実装。LSST ソフトウェアスタックのような複雑な解析でも機能することを示す。
将来課題：他クラウドへの一般化、開いている TCP 接続の移行（＝現状は未対応）、JupyterHub への専用 C/R API、C/R 性能の改善。

Q&A

（自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。）

自分のコメント

（ここは自分で都度書く欄。例：CRIU 丸ごと移行の「環境依存」と、TCP 接続移行が未対応な点が、自分の HPC↔クラウドバースティング構成でどこまで実害になるか見極めたい。）

Checkpoint, Restore, and Live Migration for Science Platforms