DistilKaggle: A Distilled Dataset of Kaggle Jupyter Notebooks

MSR '24(2024) · 論文 · mostafavi2024distilkaggle

📅 この論文を見た日

初回 2026-06-09 / 最終 2026-06-09 / 計 2 回更新

AI解説

出版社版: https://doi.org/10.1145/3643991.3644882(データ: Zenodo) 情報源: 本文(ACM、要 PDF)を入手できていない。本ノートはアブストラクトの範囲のみで書いており、アブストに無い具体値(ノートブック数・指標数・Performance Tier など)は記載していない(本文未取得)

一言で

Kaggle の Jupyter ノートブックを対象に、ノートブックの中身とそこから抽出したコード指標(code metrics)の両方を含むデータセット DistilKaggle。「ノートブックの内容とコード指標を併せ持つデータセットが無い」という研究上の空白を埋めるために作られた。

背景・問題(アブストラクトの範囲)

Jupyter ノートブックはデータ分析・処理で不可欠な道具になったが、その内容とコード指標を理解・分析する研究には大きな空白がある。主因は、ノートブックとそこから抽出したコード指標を併せて収める データセットが存在しないこと。

提案手法・結果(アブストラクトの範囲)

規模(ノートブック数)・指標数・Kaggle Performance Tier との対応づけなどの具体は本文/Zenodo に依存し、未取得のため記載していない。

関連研究との関係(メモ)

Q&A

(自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。)

自分のコメント

(ここは自分で都度書く欄。例:「内容+コード指標」を併せ持つ設計が、自分の分析にどう使えるか本文で確認したい。)