AI解説
情報源: Hugging Face のデータセットカード(README)を参照(https://huggingface.co/datasets/JetBrains-Research/JuNE)。本ノートはこのデータセットカードに記載された内容のみから記述する。カードに無い事項は「(カード未記載)」と明記する。これは論文ではなくデータセットであり、対応する査読論文・arXiv 等へのリンクはカードには示されていない(カード未記載)。
これは何か
JuNE(Jupyter Notebooks Executions)は、データサイエンス課題に取り組む参加者の Jupyter ノートブック内のコード進化(code evolution)のログを集めたデータセットである。カード冒頭は「This dataset contains logs of code evolution in Jupyter notebooks, focusing on data science tasks.」と述べる。
記録されるのは、セルの逐次実行・実行間のコード変更・出力の種類と内容・そして時間解析のためのタイムスタンプである。つまり「いつ・どのセルを・どう書き換えて・実行し・どんな出力が出たか」というイベント列を、時刻つきで残したものだと理解できる。
どう集めたか(収集方法)
- 4 拠点(大学 2、企業 2)で実施。
- 参加者は 2〜9 人のグループに分けられ、各人が少なくとも 1 つの課題を個人で解いた。
- 時間配分は 9 時間セッション(課題作業 約 8 時間 + 昼食 約 1 時間)。9 時間でデータ収集を打ち切り、最後に記録された状態をもって解答を評価した。
- 参加者: 計 20 人(学生 11 人、専門家 9 人)。
- 解いた課題: 計 29(データ分析〔DA〕タスクの解答 16、機械学習〔ML〕タスクの解答 13)。
- 課題そのもの(タスク定義)は「別リポジトリで公開」とカードに言及があるが、カード本文には具体的な URL が載っていない(プレースホルダのみ/カード未記載)。
規模
- 行数: 23,622 行。
- ユーザイベント: 14,641 件(うちセル実行 9,207、セル作成 1,930、セル削除 730)。
- ノートブック数: 29。
- 実行ログの総時間: 100 時間超。
- ファイルサイズ: 約 1.35 MB。
スキーマ(カラム)
カードに列挙されたカラムを日本語で整理する。
| カラム | 内容 |
|---|---|
action_id |
アクションの一意識別子 |
time |
アクションのタイムスタンプ |
session_id |
Jupyter セッション識別子 |
kernel_id |
カーネルインスタンス識別子 |
notebook_name |
ノートブックのファイル名 |
event |
イベント種別(セル実行など) |
cell_index |
セルのハッシュインデックス |
cell_num |
セルの位置(観測範囲 0〜109) |
cell_type |
コード or マークダウン |
cell_source |
ソースコード/内容(1〜613k 文字) |
cell_output |
実行出力(2〜49k 文字) |
user_id |
参加者識別子(19 ユーザ) |
expert |
専門家/学生を区別する真偽フラグ(True/False) |
イベント種別(event)としてカードが挙げる観測値: execute, finished_execute, save_notebook, create, error, kernel_interrupting, kernel_restarting。
なお user_id はカード上「19 ユーザ」と記載されており、参加者総数 20 人との差(1 名分の扱い)についてはカードに説明がない(カード未記載)。
重要: 資源カラムは持たない
このデータセットは実行イベント列とタイムスタンプは持つが、資源使用量のカラムは持たない。カードは明示的に「The dataset does not contain columns tracking memory usage, CPU usage, GPU usage, or cell execution time.」と述べており、メモリ使用量・CPU 使用率・GPU 使用率・セル実行時間(実行所要時間)のいずれのカラムも含まれない。
ただしタイムスタンプ(time)と execute / finished_execute のイベント対は記録されるため、実行の「開始・終了の時刻」自体は列としてではなくイベント列の差分から取り出せる余地がある(これはカードが「実行時間カラムは無い」と言っている範囲の補足であり、カードが実行時間を直接提供すると主張しているわけではない)。
形式・ライセンス
- 形式: Parquet(自動変換)。他形式でも利用可。Datasets / pandas / Croissant に対応。
- ライセンス: Apache-2.0。
引用情報
カードには次の BibTeX が掲載されている(要旨のみ抜粋)。@misc{titov2025june, ...}、publisher は Hugging Face、note に「20 名・100 時間超の実行ログ」とある。対応する査読論文への明示的リンクはカードに無い(カード未記載)。
Q&A
(まだなし)
自分のコメント
(まだなし)