関係マップ:ノートブックの実態調査・データセット

この地図は「論文同士がどう繋がるか」を散文で語るもの。各論文の事実は、対応するノートの # AI解説(論文本文/アブスト等を情報源に書いたもの)に基づく。まだノートを作っていない論文は、リンクにせず cite key を添えた素のテキストで書く(リンクは作成後に張る)。索引(何があるか)は トップページ を参照。

この地図は deep-research(複数ソースの横断検索+主張の敵対的検証) をきっかけに作った。狙いは1つ:「公開ノートブックデータセットには何があり、計算資源・システム視点(セルの実行時間・メモリ・CPU/GPU)のデータはあるのか」 を見取り図にすること。結論から言うと、静的(コード・テキスト)データセットは非常に豊富だが、ランタイムの資源プロファイルを公開したデータセットは事実上存在しない

問いと結論(一言で)

ノートブックを「マイニング」する研究は2018年以降たくさんある。だが何を記録しているかで並べ替えると、関心はくっきり左に偏っている——つまり保存済みファイルの中身(コード・Markdown・出力)を静的に見る研究がほとんどで、実際に実行して資源を測る研究はごく少数、しかもその資源データは公開データセットになっていない

データセットが何を記録しているかのスペクトラム

補足図(AI生成):公開データセットを「記録している情報」で左→右に並べたもの。灰=静的コンテンツ(大多数)淡い金=実行の成否・来歴・イベント(少数)オレンジ枠=セル別の資源プロファイル=公開データが空白。色は「記録の種類」に対応させ、オレンジだけを強調=狙い目として立てている。

1. 静的コンテンツ ― データセットの大多数はここ(スペクトラム左)

公開されている大規模コーパスは、ほぼ全部が .ipynb の中身(コードセル・Markdown・保存された出力・構造メタデータ)を静的に集めたもの。実行はしないし、資源も測らない。

→ この群を貫くのは「ノートブックは保存ファイルである」という前提。だから記録されるのは書かれたもの(コード・文章・最後に保存された出力)であって、走らせたときに起きたことではない。

2. それを使った分析 ― 関心は「コードの質と中身」(やはり静的)

上のコーパスを使った研究の主要カテゴリも、ほぼ静的解析に収まる。SLR がこの全体像を裏づける。

3. 実行を「する」研究 ― でも記録するのは成否・出力・来歴であって、資源ではない(スペクトラム中央)

ここからが境界線。実際にノートを走らせる研究はある。ただし測って残すのは「資源」ではなく「結果」——成否、出力、依存関係、操作ログだ。

→ この中央帯が重要:「実行データ」と呼べそうなものはここにしかないが、それでも資源プロファイル(時間・メモリ・CPU/GPU を体系的に揃えたもの)ではない

4. ランタイム資源を「測る」研究はある ― だが公開データセットにはなっていない(スペクトラム右=空白)

「資源を測る」研究はツールとしては存在する。このリポジトリの 性能分析マップ がその群だ。ところが、測った資源データを公開データセットとして配ったものが無い

→ つまり右端(セル別の資源プロファイルを集めた公開データセット)は、計測技術は揃っているのに、誰もデータとして出していない空白

まとめ ― あなたの仮説は正しい。ただし一段シャープにできる

あなたの認識「ライブラリ等のデータ分析は多いが、メモリ使用量・セル実行時間といったシステム視点の研究は無い」は、データセットの軸で見ると正しい。ただし正確には次の3点に分かれる:

  1. 静的コード分析のデータセットは過剰なほど豊富(§1–2、SLR の22データセットは全部これ)。
  2. 実行系のデータは少数あるが、記録は成否・出力・来歴・操作イベントであって、資源プロファイルではない(§3。最も近いのは JuNE の壁時計時刻)。
  3. 資源を測るツールは存在するが(JUmPER 等)、測った資源データを公開データセットとして配った例は無い(§4)。

だから「研究が無い」のではなく、正確には 「公開データセットが無い」計測技術(JUmPER・ElasticNotebook の内部計測)と分析需要(性能予測・LLM へのランタイム文脈)は既にあるのに、その間をつなぐ『セル別の実行時間・メモリ・CPU/GPU を揃えた公開コーパス』だけが欠けている——これが、あなたが作ろうとしているデータセットの位置づけになる。ElasticHub の「資源を測ってスケーリング判断に使う」動機とも、この空白は地続きである。

検証メモ:この地図のもとになった deep-research は20本の一次ソースから90主張を抽出し、うち25主張を3票の敵対的検証にかけ(25/25 確認・棄却0)て作った。各データセットの「静的か/資源を記録するか」の判定は、各ソースのアブスト・データセットページを実際に読んで確認している。新規追加分(rule2018exploration・kallen2021clones・agashe2019juice・chandel2022jupyt5・titov2025june・samuel2024reproducibility・siddik2023codequality・desantana2022bug・nguyen2025nonexecutable・macke2021nbsafety)はその後、各論文の本文(または HuggingFace データセットカード)を一次情報として精読してノート化済みで、本文中のリンクはそのノートを指す。

この分野の論文一覧(索引)

静的コーパスrule2018exploration(UCSD ~1.25M)・kallen2021clones(2.7M, clones)・pimentel2019largescalequaranta2021kgtorrentmostafavi2024distilkaggledrozdova2023code4mlbiswas2019boa

コード生成データセットagashe2019juice(JuICe)・chandel2022jupyt5(DSP / JuPyT5)

コード分析・品質・バグ・サーベイsiddik2025review(SLR)siddik2023codequality(SCAM ‘23)・desantana2022bugpsallidas2022datasciencegrotov2022comparison

実行の成否・来歴・操作イベントsamuel2024reproducibility(再現性)・nguyen2025nonexecutable(実行可能性)・macke2021nbsafety(来歴/staleness)・titov2025june(JuNE 実行イベントログ)

資源を測るツール(データ非公開)werner2021bridgingwerner2024jumperprathanrat2018performancegrotov2025themistoli2023elasticnotebook(→ 詳細は 性能分析マップ