DistilKaggle: A Distilled Dataset of Kaggle Jupyter Notebooks

MSR '24（2024） · 論文 · mostafavi2024distilkaggle

📅 この論文を見た日

初回 2026-06-09 ／最終 2026-06-09 ／計 2 回更新

少多

AI解説

出版社版: https://doi.org/10.1145/3643991.3644882（データ: Zenodo） 情報源: 本文（ACM、要 PDF）を入手できていない。本ノートはアブストラクトの範囲のみで書いており、アブストに無い具体値（ノートブック数・指標数・Performance Tier など）は記載していない（本文未取得）。

一言で

Kaggle の Jupyter ノートブックを対象に、ノートブックの中身とそこから抽出したコード指標（code metrics）の両方を含むデータセット DistilKaggle。「ノートブックの内容とコード指標を併せ持つデータセットが無い」という研究上の空白を埋めるために作られた。

背景・問題（アブストラクトの範囲）

Jupyter ノートブックはデータ分析・処理で不可欠な道具になったが、その内容とコード指標を理解・分析する研究には大きな空白がある。主因は、ノートブックとそこから抽出したコード指標を併せて収めるデータセットが存在しないこと。

提案手法・結果（アブストラクトの範囲）

Kaggle リポジトリを主たる出所として、ノートブックのコード指標研究を支えるために特化したデータセットを作る。
パイプラインを通じて、ノートブックの内容と抽出した指標をまとめる（具体的な収録規模・指標の種類・分類軸はアブストに記載がなく、本ノートでは触れない。本文未取得）。

規模（ノートブック数）・指標数・Kaggle Performance Tier との対応づけなどの具体は本文／Zenodo に依存し、未取得のため記載していない。

関連研究との関係（メモ）

KGTorrent（quaranta2021kgtorrent）：同じ Kaggle ノートブックだが、KGTorrent は生ノートブック＋関係メタデータ（全文精読済み）。DistilKaggle はコード指標に振る点が違う。
Code4ML（drozdova2023code4ml）：Kaggle 由来でアノテーション方向が異なる。
grotov の比較研究（grotov2022comparison）：コード指標でノートブックを測る点が近い（全文精読済み）。

Q&A

（自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。）

自分のコメント

（ここは自分で都度書く欄。例：「内容＋コード指標」を併せ持つ設計が、自分の分析にどう使えるか本文で確認したい。）