JuNE: Jupyter ノートブック実行ログ・データセット

Hugging Face Datasets(2025) · 論文 · titov2025june

📅 この論文を見た日

初回 2026-06-16 / 最終 2026-06-16 / 計 1 回更新

AI解説

情報源: Hugging Face のデータセットカード(README)を参照(https://huggingface.co/datasets/JetBrains-Research/JuNE)。本ノートはこのデータセットカードに記載された内容のみから記述する。カードに無い事項は「(カード未記載)」と明記する。これは論文ではなくデータセットであり、対応する査読論文・arXiv 等へのリンクはカードには示されていない(カード未記載)。

これは何か

JuNE(Jupyter Notebooks Executions)は、データサイエンス課題に取り組む参加者の Jupyter ノートブック内のコード進化(code evolution)のログを集めたデータセットである。カード冒頭は「This dataset contains logs of code evolution in Jupyter notebooks, focusing on data science tasks.」と述べる。

記録されるのは、セルの逐次実行・実行間のコード変更・出力の種類と内容・そして時間解析のためのタイムスタンプである。つまり「いつ・どのセルを・どう書き換えて・実行し・どんな出力が出たか」というイベント列を、時刻つきで残したものだと理解できる。

どう集めたか(収集方法)

規模

スキーマ(カラム)

カードに列挙されたカラムを日本語で整理する。

カラム 内容
action_id アクションの一意識別子
time アクションのタイムスタンプ
session_id Jupyter セッション識別子
kernel_id カーネルインスタンス識別子
notebook_name ノートブックのファイル名
event イベント種別(セル実行など)
cell_index セルのハッシュインデックス
cell_num セルの位置(観測範囲 0〜109)
cell_type コード or マークダウン
cell_source ソースコード/内容(1〜613k 文字)
cell_output 実行出力(2〜49k 文字)
user_id 参加者識別子(19 ユーザ)
expert 専門家/学生を区別する真偽フラグ(True/False)

イベント種別(event)としてカードが挙げる観測値: execute, finished_execute, save_notebook, create, error, kernel_interrupting, kernel_restarting

なお user_id はカード上「19 ユーザ」と記載されており、参加者総数 20 人との差(1 名分の扱い)についてはカードに説明がない(カード未記載)。

重要: 資源カラムは持たない

このデータセットは実行イベント列とタイムスタンプは持つが、資源使用量のカラムは持たない。カードは明示的に「The dataset does not contain columns tracking memory usage, CPU usage, GPU usage, or cell execution time.」と述べており、メモリ使用量・CPU 使用率・GPU 使用率・セル実行時間(実行所要時間)のいずれのカラムも含まれない

ただしタイムスタンプ(time)と execute / finished_execute のイベント対は記録されるため、実行の「開始・終了の時刻」自体は列としてではなくイベント列の差分から取り出せる余地がある(これはカードが「実行時間カラムは無い」と言っている範囲の補足であり、カードが実行時間を直接提供すると主張しているわけではない)。

形式・ライセンス

引用情報

カードには次の BibTeX が掲載されている(要旨のみ抜粋)。@misc{titov2025june, ...}、publisher は Hugging Face、note に「20 名・100 時間超の実行ログ」とある。対応する査読論文への明示的リンクはカードに無い(カード未記載)。

Q&A

(まだなし)

自分のコメント

(まだなし)