Code4ML: a large-scale dataset of annotated Machine Learning code

PeerJ Computer Science(2023) · 論文 · drozdova2023code4ml

📅 この論文を見た日

初回 2026-06-09 / 最終 2026-06-09 / 計 2 回更新

AI解説

オープンアクセス全文: https://peerj.com/articles/cs-1230/(取得時に 403 となり本文を読めていない) 情報源: 本文(PeerJ・OA だが取得時 403)を読めていない。本ノートはアブストラクトの範囲のみで書いており、アブストに無い具体(分類木のカテゴリ数・注釈件数・CSV の結合キーなど)は記載していない(本文未取得)

一言で

Kaggle 由来の機械学習(ML)コードを集めた大規模コーパス Code4MLコード スニペット・タスク要約・コンペ・データセット記述を含み、約 250 万のスニペットから成る。コードを意味づけ(アノテーション)して、コード分類や自動生成などの ML へ使えるようにすることを狙う。

背景・問題(アブストラクトの範囲)

プログラム コードをデータ源として使う動きがデータサイエンティストの間で広がっている(意味的なコード分類から、プログラムの自動生成まで)。しかし、コード スニペットに注釈(annotation)が付いていないと、機械学習モデルの適用は限定的になる。注釈付きデータセットの不足を埋めるのが本研究。

提案手法・結果(アブストラクトの範囲)

11 トップレベル カテゴリ/約80 リーフ、注釈件数、kernel_id/comp_name 等の結合キーといった具体は本文(OA だが取得できず)に依存し、記載していない。

関連研究との関係(メモ)

Q&A

(自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。)

自分のコメント

(ここは自分で都度書く欄。例:意味アノテーションの分類軸を本文で確認し、CEMT の knowledge-aware のような「意味でセルを判断する」自分の関心に接続できるか見たい。)