AI解説
出版社版: https://doi.org/10.1145/3643991.3644882(データ: Zenodo) 情報源: 本文(ACM、要 PDF)を入手できていない。本ノートはアブストラクトの範囲のみで書いており、アブストに無い具体値(ノートブック数・指標数・Performance Tier など)は記載していない(本文未取得)。
一言で
Kaggle の Jupyter ノートブックを対象に、ノートブックの中身とそこから抽出したコード指標(code metrics)の両方を含むデータセット DistilKaggle。「ノートブックの内容とコード指標を併せ持つデータセットが無い」という研究上の空白を埋めるために作られた。
背景・問題(アブストラクトの範囲)
Jupyter ノートブックはデータ分析・処理で不可欠な道具になったが、その内容とコード指標を理解・分析する研究には大きな空白がある。主因は、ノートブックとそこから抽出したコード指標を併せて収める データセットが存在しないこと。
提案手法・結果(アブストラクトの範囲)
- Kaggle リポジトリを主たる出所として、ノートブックのコード指標研究を支えるために特化したデータセットを作る。
- パイプラインを通じて、ノートブックの内容と抽出した指標をまとめる(具体的な収録規模・指標の種類・分類軸はアブストに記載がなく、本ノートでは触れない。本文未取得)。
規模(ノートブック数)・指標数・Kaggle Performance Tier との対応づけなどの具体は本文/Zenodo に依存し、未取得のため記載していない。
関連研究との関係(メモ)
- KGTorrent(
quaranta2021kgtorrent):同じ Kaggle ノートブックだが、KGTorrent は生ノートブック+関係メタデータ(全文精読済み)。DistilKaggle はコード指標に振る点が違う。 - Code4ML(
drozdova2023code4ml):Kaggle 由来でアノテーション方向が異なる。 - grotov の比較研究(
grotov2022comparison):コード指標でノートブックを測る点が近い(全文精読済み)。
Q&A
(自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。)
自分のコメント
(ここは自分で都度書く欄。例:「内容+コード指標」を併せ持つ設計が、自分の分析にどう使えるか本文で確認したい。)