AI解説
出版社版: https://doi.org/10.1109/MSR.2019.00086(Boa: https://boa.cs.iastate.edu/) 情報源: 本文(IEEE、要 PDF)を入手できていない。本ノートはアブストラクトの範囲のみで書いている。アブストに無い具体値(スナップショット数・開発者数・収録ライブラリ数・格納形式など)は記載していない(本文未取得)。
一言で
データサイエンス(DS)向けの Python OSS を大規模にマイニングできるデータセットを、ソフトウェア リポジトリ解析基盤 Boa 上に作った研究。GitHub から DS タスクを開発する成熟した Python プロジェクト 1,558 件を集め、メタデータとコードを解析して収録する。
背景・問題(アブストラクトの範囲)
Python は DS での利用増で人気が急騰し、GitHub 上の Python リポジトリはマイニング ソフトウェア リポジトリ(MSR)研究の好機を与える——DS アプリ開発のベストプラクティス提案、バグ パターンの同定、コード改善の推薦など。これを可能にするには、解析しやすい形に整えた共有データセットが要る。本研究はその素材を提供する。
提案手法・結果(アブストラクトの範囲)
- GitHub から DS タスクを開発する成熟した Python プロジェクト 1,558 件を選定。
- メタデータとコードを解析して Boa のデータセットに収録し、MSR 研究(ベストプラクティス・バグ パターン・コード推薦など)に使えるようにする。
アブストに無い詳細(マイニングしたスナップショット数、開発者数、収録 DS ライブラリ数、AST/Hadoop sequence file などの格納形式)は本文に依存し、未取得のため記載していない。
関連研究との関係(メモ)
- KGTorrent / Code4ML / DistilKaggle:いずれも DS コードの大規模データセット。出所(GitHub OSS vs Kaggle)や付加情報が異なる。詳細な差分は各本文を読んでから整理する。
Q&A
(自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。)
自分のコメント
(ここは自分で都度書く欄。例:Boa 上での大規模クエリが、自分が状態操作のパターンを調べたいときに使えそうか、本文を読んで確認したい。)