AI解説

出版社版: https://doi.org/10.1109/MSR.2019.00077（著者公開 PDF で全文取得。なお lint ツール Julynter は本 MSR ‘19 論文ではなく拡張版 EMSE 2021 のもの） 情報源: 全文（PDF・11頁）を精読して記述。24.11%／4.03%、再実行順の扱い、69.07% Markdown・70.90% 等を本文で確認・修正済み。

一言で

GitHub 上の 約 140 万本の Jupyter ノートブックを実際に再実行し、「ノートブックは本当に再現できるのか」を大規模に検証した研究。結果は厳しく、エラーなく最後まで走ったのは 24.11%、元の出力まで一致して再現できたのはわずか 4.03%。失敗の主因（依存・データ欠落、セルの実行順）を突き止め、再現性を上げるベストプラクティスを提案する。

背景・問題

Jupyter ノートブックは科学・産業の両方で広く使われ、「コード・文章・実行結果を 1 つに束ねる literate programming」「自己文書化」「結果の再現が容易」といった利点が喧伝されてきた。一方で「ノートブックの使われ方が予期せぬ挙動・悪いコーディング習慣を招き、結果が再現しにくい」という批判も強まっている。

問題は、この賛否が大規模な実証なしに語られてきたこと。「再現できるはず」という主張が、実際の GitHub 上のノートブック群でどの程度成り立つのかは未検証だった。本研究はそこを140 万本規模で実測して埋める。

提案手法（調査の設計＝やったこと）

本研究の「課題」は、巨大な実ノートブック集合を機械的に収集・解析・再実行するパイプラインを組むこと。

収集：GitHub の約 130 万リポジトリから 約 140 万本の Jupyter ノートブックを取得。
静的解析：言語・カーネル・セル構成・Markdown 使用・関数/ループ/条件分岐などの構造的特徴を集計。
再実行（reproducibility 検証）：各ノートブックを、宣言された依存（requirements.txt / conda 等）から隔離環境を構築して再実行する。実行順は保存された実行順（execution_count 順）を採用した——ユーザはセルを任意の順で実行し一部を飛ばせるため、自然な「上から下（top-down）」順ではなくこちらを選んだ、と論文は述べる。
出力一致の判定：再実行で得た出力が、ノートブックに保存された元の出力と一致するかを照合し、「エラーなく完走」と「出力まで一致（reproduce）」を区別して測る。

数式・アルゴリズム

統計集計が主で定式化は薄いが、再現率の指標を記号で書くと、

完走率 R_finish = (エラーなく最後まで走ったノートブック数) / (再実行を試みたノートブック数)
再現率 R_repro = (元の出力と一致したノートブック数) / (再実行を試みたノートブック数)

であり、本研究の中心的な発見は R_finish ≈ 24.11%、R_repro ≈ 4.03% という低さ。論文は、再実行を保存実行順で行ったことと、21.11% のノートブックに未実行セルがある（top-down で実行すれば異なる結果になりうる）ことが、4.03% という低い再現率の一因だと論じる（「実行順を変えれば再現率が上がるか」の検証は future work）。

実験・結果（主要な発見）

エラーなく完走：24.11%。出力まで再現：4.03%。再現性の主張は、実データでは大きく裏切られる。
失敗の主因：（1）依存パッケージ・データの欠落、（2）セルの実行順の乱れ（保存順で走らせると途中で壊れる）。
実行順の影響：再実行は保存実行順で行い、NameError が実行の 14.53%、21.11% のノートブックに未実行セルが存在。順序外・隠れ状態が再現性を壊す要因として挙げられ、4.03% の低さの一因とされる。
構造的特徴：約 69.07% が Markdown セルを含む（文書化はそれなりに行われている）。ループ／条件分岐を持つノートブックの 70.90% は関数定義も持つが、クラスを定義するのは 8.54% のみ。
提案：再現性を上げるベストプラクティス（依存の明示、上から下へ実行できる構成、相対パス、出力の保存など）を提示。さらに今後の研究課題（依存推論や実行順を変えた再実行で再現率を上げられるか等）を議論する。

数字の解釈：4.03% という再現率の低さは「ノートブック＝再現可能」という通念への強い反証で、原因が環境（依存）と実行順という直せる要因に集中している点が重要。だからこそベストプラクティス＋ツールで改善余地がある、という論立てになっている。

Q&A

（自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。）

自分のコメント

（ここは自分で都度書く欄。例：再現性を壊す「実行順」と「依存欠落」は、状態の保存・移行を扱う自分のテーマと表裏。状態を丸ごと保存できれば再現率は上がるはずで、その接続を考えたい。）

A large-scale study about quality and reproducibility of Jupyter notebooks