Performance Prediction of Jupyter Notebook in JupyterHub using Machine Learning

2018 International Conference on Intelligent Informatics and Biomedical Sciences (ICIIBMS)(2018) · 論文 · prathanrat2018performance

📅 この論文を見た日

初回 2026-06-10 / 最終 2026-06-10 / 計 1 回更新

AI解説

出版社版: https://doi.org/10.1109/ICIIBMS.2018.8550030(IEEE Xplore, document 8550030)。著者: Pariwat Prathanrat, Chantri Polprasert。 情報源: 本文は IEEE 有料(CLOSED アクセス)で取得できず、アブストラクトのみ(Semantic Scholar API で一次取得した abstract 全文)に基づいて記述。アブストに無い詳細(実験環境、データ収集方法、比較した他モデルの一覧、特徴量の具体的測り方など)は 「本文未取得」 と明記し、推測で埋めていない。図は IEEE 版から取得できないため、理解補助の AI生成 SVG を 1 点だけ添えた。

一言で

JupyterHub 上で動くノートブックの「応答時間(response time)」を、機械学習で予測する研究。notebook の CPU プロファイル・RAM プロファイル・同時ユーザ数・セル間の平均遅延を特徴量に使い、Random Forest が最良MAPE 9.849%・MAE 13.768 秒・R^2 = 0.93 を達成した、と報告する(数値はすべてアブスト由来)。

背景・問題

JupyterHub は複数ユーザが同じ基盤上でノートブックを同時に動かす環境であり、各ノートブックがどれだけの時間で応答するか(実行が返ってくるか)は、ノートブック自身の負荷だけでなく同時に走っている他ユーザの負荷にも左右される

課題(この研究がやること)

上記の問題に対し、本研究の課題は「機械学習でノートブックの応答時間を予測すること」。すなわち、観測可能な特徴量から応答時間を回帰予測するモデルを作り、その精度を MAE / MAPE で評価する。

問題(=応答時間が読めない)と課題(=ML で予測する)を分けて捉える。

提案手法(特徴量とモデル)

アブストが明示する範囲のみ記す。

重要だと示された特徴量(4 つ):

  1. notebook の CPU プロファイル — そのノートブックの CPU 使用の特徴。
  2. notebook の RAM プロファイル — そのノートブックのメモリ使用の特徴。
  3. 同時ユーザ数(number of users) — JupyterHub 上で同時に動いているユーザ数。混雑度に対応。
  4. セル間の平均遅延(average delay between cells) — セル実行の間隔。対話的な使われ方を表す量と読める。

アブストはこれら 4 つを「応答時間を正確に予測するうえでモデルの性能に効く crucial な特徴量」と述べている。各特徴量の具体的な測り方・前処理・正規化、特徴量重要度の数値本文未取得

モデル: 複数の機械学習モデルを比較し、その中で Random Forest が最も強い性能を示した、とする。比較対象として他にどのモデルを試したか(線形回帰・SVR・勾配ブースティング等)の一覧は本文未取得

予測対象(目的変数): ノートブックの 応答時間(response time, 秒)

性能予測パイプライン(補足図・AI生成)

補足図(AI生成): 4 特徴量 → ML モデル(最良は Random Forest)→ 応答時間(秒)の予測、という構図と報告値の整理。アブスト記載の要素のみを図にした。

評価・結果

アブストが報告する数値:

評価指標として MAE と MAPE を採用している。データセットの規模・収集手順・train/test 分割・他モデルの具体的スコア・誤差の分布などは本文未取得

メモ(位置づけ)

Q&A

(自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。)

自分のコメント

(ここは自分で都度書く欄。)