AI解説

出版社版: https://doi.org/10.1145/3524842.3528447（arXiv 全文: https://arxiv.org/abs/2203.16718。解析ツール Matroskin: https://github.com/JetBrains-Research/Matroskin） 情報源: arXiv 全文（PDF）を精読して検証済み。GitHub の全 ipynb 9,719,569 件 → 許諾ライセンス＋Python で 847,881 ノートブック、スクリプトは 10k 人気プロジェクトから 465,776 件。構造15指標は Matroskin ライブラリ、スタイルは Hyperstyle（複数 linter）で算出、を確認。

一言で

「ノートブックの Python コードは、普通のスクリプトとどう違うのか」を大規模に比べた研究。約 84.8 万本のノートブックと同規模のスクリプトを、専用ツール Matroskin で 15 種の指標で解析。結論は、ノートブックのコードは複雑さ（complexity）は低いが、より”絡まって（entangled）”おり、スタイル違反が約 1.4 倍多い。ノートブック特有の事情を踏まえた専用ツールの必要性を主張する。

背景・問題

ノートブックは探索的・対話的に書かれるため、「スクリプトとは別物のコードになっているはずだ」と経験的に言われてきた。だが、それを大規模に定量比較した研究は乏しかった。問題は「ノートブックとスクリプトのコード品質・構造の違いが、印象論でしか語られていない」こと。違いが分かれば、ノートブックに何の支援ツールが要るか（既存のスクリプト向け lint をそのまま使ってよいのか）を根拠を持って言える。

提案手法（調査の設計＝やったこと）

コーパス構築：847,881 本のノートブックと、比較対象のスクリプトを収集。生データ 約 4 TB を約 100 GB に圧縮して扱える形にする。
解析ツール Matroskin：ノートブックとスクリプトを共通の枠組みで解析する独自ツールを開発。AST ベースで 15 種の構造的・スタイル的指標（行数、関数・クラス定義、循環的複雑度、結合度、PEP8 違反など）を計算。
比較：両者の指標分布を突き合わせ、統計的に違いを示す。

直感：ノートブックとスクリプトを同じ物差しで測れるツールがまず必要で、Matroskin がそれ。指標を複雑さ系とスタイル系に分けて比べるのが設計。

数式・アルゴリズム

提案は計量フレームワークで、最適化はない。各ノートブック／スクリプト u について指標ベクトル m(u) = (LOC, #functions, #classes, cyclomatic, coupling, #style_violations, ...) を計算し、母集団間で分布を比較する。たとえばスタイル違反密度 style(u) = #violations / LOC の中央値をノートブック群とスクリプト群で比べる、というイメージ（記号は説明用）。

実験・結果（主要な発見）

複雑さは低い：ノートブックのコードはスクリプトより循環的複雑度などが低い——短く、込み入った制御構造が少ない。
より”絡まっている”（entangled）：一方で、セルをまたいだ変数の依存・再代入などでコードが絡まりやすい。複雑ではないが整理されていない、という像。
スタイル違反が約 1.4×：ノートブックはスタイル問題が約 1.4 倍多い。最頻の PEP8 違反は E501（行が長すぎる） と W291（行末の空白）。ただし一部はノートブック固有の偽陽性（セル区切りや出力の都合で、スクリプトの基準をそのまま当てると不当に違反扱いになる）であることも指摘。
クラスをほとんど定義しない：自前のクラスを定義するノートブックはわずか 8.54%——手続き的・探索的な書き方が支配的。
含意：スクリプト向けの基準・ツールをそのまま当てるのは不適切で、ノートブック特有の事情を踏まえた専用ツール（lint・リファクタ支援）が要る、と主張。
数字の解釈：「複雑さは低いのにスタイル違反は多い」という一見矛盾は、探索的に素早く書くノートブックの性質（整形より試行を優先）で説明でき、だからこそ整形・整理を助けるツールに価値がある、という論立て。

Q&A

（自分がAIに実際に質問したことだけを Q/A 形式で残す。まだなし。）

自分のコメント

（ここは自分で都度書く欄。例：ノートブックが”絡まりやすい”という性質は、状態の依存追跡（どのセルがどの変数に依存するか）の難しさと直結する。自分の依存解析の前提として頭に入れたい。）

A large-scale comparison of Python code in Jupyter notebooks and scripts