Exploiting Program Dependence Graph for Source Code Classification by Functionality

(1)

プログラム依存グラフを用いた機能性によるソース

コード分類の研究

著者

延原宙斗

出版者

法政大学大学院情報科学研究科

雑誌名

法政大学大学院紀要. 情報科学研究科編

巻

13 ページ

1-6

発行年

2017-03-31

URL

http://doi.org/10.15002/00021528

(2)

プログラム依存グラフを用いた機能性によるソースコード分類の研究

Exploiting Program Dependence Graph

for Source Code Classification by Functionality

延原宙斗

∗

Hiroto Nobuhara

法政大学大学院情報科学研究科

Email: [email protected]

Abstract—In many software engineering problems, such as code clone detection, fault prediction, and source code classification, software metrics based approaches are not suitable because they cannot capture precise semantic information of source code. Therefore reseachers have been using abstract syntax trees (ASTs) and program dependence graphs (PDGs) to solve such kind of problems. Previous studies show that a Tree-based con-volutional neural network (TBCNN) outperforms other methods to solve source code classification problem. TBCNN uses ASTs to extract underlying meaning of source code. This paper aims to solve source code classification problem using PDGs in addition to ASTs. We present a novel neural network model which is implemented by extending TBCNN. Our model exploits ASTs and PDGs to obtain structural and semantic information of source code. We evaluate our model based on classifying source code by functionality. The dataset contains 104 programming problems and each problem includes 500 programs. Our model achieves over 95% accuracy which is higher than TBCNN’s one. We also survey importance of each dependence and our experiment suggests that the control dependence is the most valuable for extracting semantic features from source code.

1. はじめに

ソフトウェア工学において，ソフトウェアメトリクスを用いた有用な手法は数多く提案されてきた．しかしながら問題に適したメトリクスの選択やその抽出などは効率的に行えない場合が多く，またコードクローンの検出や欠陥予測などのようなメトリクスだけでは不十分な問題は多数存在する．そこで多くの研究者がソースコードから自動かつ静的に得ることのできる抽象構文木（Abstract Syntax Tree，以降AST）やプログラム依存グラフ（Program Dependence Graph，以降PDG）を使用し，ソフトウェア工学の各タスクに対応できるような様々な手法の提案がなされてきた．特にソースコードからその意味的，機能的特徴を自動で抽出することは，コードクローンや欠陥予測を始めとする様々なソフトウェア工学における問題に有用であると考えられる．ソースコードの機能的特徴を用いることにより解決することが可能な，基本的かつ実用的なタスクとしてソースコードの分類が挙げられる．プロジェクトやライブラリ，またそれらに含まれるソースコードを機能性や言語によって分類することにより，プロジェクト内のソースコードの見通しがよくなり，プログラムの再利用性の向上につながる[1]．しかしながら巨大なプロジェクトにおいて，そのソースコードの数は膨大であり，手動でソースコードを分類することは容易ではない．特に近年は数多のソースコードを共有するGitHubのような巨大なシステムが存在する．膨大なソースコードが公開されている反面，目的のコードを探し出すにはソースコードを的確に理解する知識と能力が必要であり，また手間と時間 ∗_{Supervisor: Prof. Akira Sasaki}

がかかる．プロジェクトやライブラリ，またソースコードを機能性により自動分類することはそれらの再利用性の向上をもたらすと考えられる． Mouらはオンラインジャッジシステムに提出された52000 個のソースコードを104種の問題番号に分類するというタスクにおいて，ASTのような木構造に特化した新しいモデルであるTree-based convolutional neural network（以降TBCNN）

を提案し，従来のモデルを大きく引き離し高い正解率を得ることに成功した[2]．Phanらは機能性によるソースコードの分類問題において，ソフトウェアメトリクス，ASTノード列，またASTの構造情報や編集距離に基づく様々な機械学習によるアプローチを調査，検証した[3]．結果として，既存研究で提案されたモデルの中ではTBCNNが最も有効であると考えられることを示した．本研究ではTBCNNを拡張し，PDGを入力として取り入れることにより，ソースコードの意味的，機能的特徴のさらなる獲得を試みる．PDGはコンパイラの最適化における中間表現であり，PDGに存在する制御依存関係やデータ依存関係を用いてプログラムの最適化が行われる．PDGはプログラムの動作の特徴を多く保持していると考えられる．本研究では制御依存関係，データ依存関係に加え，実行依存関係[4]を用いる．これらの依存関係を用いてPDGの各頂点に対し畳み込みを適用する．提案手法によるモデルを用いてMouらの公開するオンラインジャッジシステムに提出されたソースコードを104種の問題番号に分類するタスクを解く．本研究では各種依存関係を単独で用いた場合と組み合わせた場合の性能の評価を行い，各種依存関係がどれほどソースコードの機能的側面を表しているかを調査した．結果として制御依存関係が最もソースコードの機能的側面を表す可能性があることが分かった．また，既存研究の中でこのタスクにおいて最も性能が高いと考えられるTBCNNと比較することにより，提案手法によるモデルの評価を行った．提案手法によるモデルは95.8%の正解率を示し，TBCNNを2.5%程上回った．ASTだけでなくPDGの構造情報を考慮することによりソースコードの意味的，機能的側面をさらに捉えることができると考えられる．我々の知る限りでは，本研究はPDGの構造情報をニューラルネットワークに与える初めての試みとなる．

2.

3. 提案手法

3.1. 使用するプログラム依存グラフ

一般にPDGにおける頂点は一行分のコード片に対応し，エッジ集合は制御依存エッジとデータ依存エッジから成る．本研究では制御依存関係，データ依存関係だけでなく，実行依存関係を用いる [4]．頂点間の各依存関係は次で与えられる． ■制御依存文sが条件節であり，文tが実行されるか否かが文sの条件判定の結果に直接委ねられる場合，文sから文t の間に制御依存が存在する． ■データ依存文sにおいて変数vが定義され，文tにおいて変数vを参照する式が存在し，また文sと文tへの実行パスの中に変数vを再定義しないパスが存在する場合，文sから文tの間にデータ依存が存在する． ■実行依存文sの直後に文tが実行される可能性がある場合，文sから文tの間に実行依存が存在する．実行依存関係はその性質上，ソースコード上の隣合う行に存在する場合が多い．しかしながらループ中のBreakや Continue，またIfを始めとする制御文によってそれらのソースコード上の位置（行番号）は大きく離れることもある．実行依存を用いることにより，制御依存やデータ依存を持たない隣接関係を用いて畳み込みを適用することができ，新たな特徴の獲得が期待できる．一般的なPDGはプログラムの開始位置を示すための頂点を持っており，また，PDGの生成時には補助的に利用される頂点が生まれる．そのため提案手法ではASTに直接対応していない頂点を全て削除し，ASTノードを割り当てることができる頂点のみを残す．提案手法で用いるPDGの例を図1に示す．本実装では関数間の依存関係も考慮したシステム依存グラフ（System Dependence Graph）[10]を用いておらず，また，ポインタに関するエイリアスなどの問題を考慮していない．これらの実装は今後の課題の1つとなる．

3.2. AST

への畳み込みの適用

TBCNNはMouらによって提案されたモデルであり，AST への畳み込みの適用に特化している[2]．特に機能性によるソースコード分類において非常に高い性能を示している[3]ため，提案手法ではASTの畳み込みにTBCNNを用いる．TBCNN の構成を図2に示す．TBCNNは埋め込み層，コーディング層，畳み込み層，動的プーリング層，全結合層，ソフトマックス層によって構成される．コーディング層により全てのAST ノードはNf 次元ベクトルx∈ RNf として表される．この int fib(int n) { int result = -1; if (n == 0) { result = 0; } else if (n == 1) { result = 1; } else {

result = fib(n - 1) + fib(n - 2); }

return result; }

(a)フィボナッチ数列を計算する関数

Function int fib(int n)

Decl int result = -1

If n == 0

If n == 1

Assign result = fib(n - 1) + fib(n - 2)

Return return result; Assign result = 0 Assign result = 1 (b)生成したPDG．実線は制御依存，点線はデータ依存，破線は実行依存を示す．図1:提案手法で用いるPDGの例とき，意味的に似ているASTノードのベクトルは類似の値をとるように表現される．例えばForやWhileはループ文を表現するため似ているが，何かしらのデータを示すIDとは異なる．コーディング層によって表現された各ASTノードは畳み込み層によって畳み込みが適用される．深さ固定の特徴検出器をAST全体にスライドさせていくことにより，ASTの構造情報を得る．特徴検出器は対象となる部分木に含まれるノードx1, . . . ,xn∈RNf に対し，重み行列Wi∈RNt×Nf との行列積を計算する（Ntは出力ベクトルの次元数）．畳み込みを適用した後の特徴ベクトルy∈RNt _{は以下で示される．} y=f ( btconv+ n ∑ i=1 Wi·xi ) (1) ここで，btconv∈RNt はバイアス項，f(·)は非線形関数を示す．Mouらは活性化関数にtanh関数を用いているが，本研究では勾配消失の抑制のため，ReLU関数を用いた．問題となる点が用意する重み行列の個数である．なぜならそれぞれのノードの子ノードの数は一定でなく，そのため検出対象となるノード数nを固定できないためである．そこで彼らは検出器に用いる重み行列をWt_，_Wl_，_Wr_∈_RNt×Nf の3つのみ用意した．部分木におけるノードの位置情報を用いて算出する係数をそれぞれの重み行列にかけ，それらを足し合わせたものが式(1)で用いられる重み行列Wiとなる．ノードiが部分木の中で上，右，左にどれだけ位置しているかという情報を用いることにより，それぞれの方向に対応する係数，ηt i, ηir, ηli（それぞれ上，右，左に対応する）を決定する．具体的には次のように決定する．

(4)

図2: TBCNNの構成．コーディング層によりASTの各ノードは実数値のベクトルとして表現される．畳み込み層ではASTに対し深さ固定の特徴検出器を用いて畳み込みの適用を行う．その後動的プーリングによりAST内の全てのノードのベクトルは 1つにまとめられ，全結合層を経てソフトマックス関数による各ラベルへの値が出力される． •ηit= di d−1（diは部分木におけるノードiの深さ，dは部分木全体の深さを示す．） •ηr i = (1−ηit) pi−1 s−1（piはノードiの位置，sはノード iと兄弟関係にあるノードの個数を示す．） •ηil= (1−η t i)(1−η r i) 畳み込み層によって得られたベクトルの個数は畳み込み適用前と同じであり，ソースコードによって異なる．TBCNNではASTノードへの畳み込み適用後，動的プーリング [11]によりAST内の全てのノードを1つのベクトルにまとめる．動的プーリングによって得られるベクトルのi番目の要素の値は，ASTに存在する全てのベクトルのi番目の要素の最大値である．これをone-way poolingとよぶ．ネットワークの最後に全結合層と出力層（ソフトマックス層）を加え，教師あり学習に対応する．提案手法ではASTに加えPDGを扱うため， TBCNNにおける畳み込み層と全結合層との間を修正する．

3.3. PDG

の頂点のベクトルの決定

MouらはASTにおける位置関係を極力崩さないことで適切に畳み込み適用後のノードの特徴を保存することができることを期待し，木の上部と左下部，右下部とで別々にプーリングを適用するthree-way poolingを検証した．one-way pooling

とthree-way poolingをそれぞれ用いた場合の正解率の差異は 0.1%程であり，大きな性能の向上はみられなかったと報告している[2]．彼らは固定長ベクトルに収めることを目的とするプーリング手法の違いに対してTBCNNが敏感ではないと考察している．しかしながら，この操作によりASTの構造情報を多く破棄してしまっていると考えられる．提案手法ではPDGの頂点ごとにone-way poolingを適用し， PDGによる頂点間の関係を畳み込みによって抽出する（図3）． PDGの頂点ごとにone-way poolingを適用することで特徴をなるべく損なわずにその後の処理を行えることが期待できる． PDGの頂点に対応するASTノードは，その頂点に対応するコード片を構成するASTの部分木に属されているため，PDG の生成時にASTノードと頂点との関係を保存しておく．

3.4. PDG

への畳み込みの適用

ASTと同じく，PDGもソースコードごとに頂点の数やグラフの形が異なる．加えてPDGはASTと異なり，頂点間に明確な順序関係は存在しない．本研究ではPDGの畳み込みの適用として，様々な形状を持つグラフに対し畳み込みを適用することができるVermaらの手法を用いた[12]．彼らのモデルは様々な形を持つ点群の分類において高い性能を示している． PDGの頂点に隣接する頂点の数は一定でないため，m個の重み行列U1, . . . ,Um∈RNg×Ntを用いて畳み込みを行う図3: PDGの頂点ベクトルの決定と畳み込みの適用．PDGの各頂点に対応するASTの部分木のノード集合に対しone-way poolingを適用する．その後PDGに対して畳み込みを適用する．（Ngは出力ベクトルの次元数）．頂点iのベクトルvi∈RNt に対する畳み込み適用後のベクトルv´i∈RNgは以下の式で表される． ´ vi=f  bgconv+ m ∑ k=1 1 |Ni| ∑ j∈Ni qk(vi,vj)Uk·vj   (2) ここで，bgconv ∈RNg はバイアス項，Niは頂点iに隣接する頂点の集合（頂点iを含む），_|Ni|は集合のサイズを示す．活性化関数f(·)にはReLU関数を用いる．重み行列Ukにかける係数となるqk(vi,vj)は次のように定義される． qk(vi,vj)∝exp ( aTkvi+bTkvj+ck ) (3) ただし，∑m k=1qk(vi,vj) = 1とする．ここで，ak,bk∈R Nt は重みベクトル，ck∈Rはバイアス項を示す．この係数を用いることにより， ∑ j∈Ni 1 |Ni| m ∑ k=1 qk(xi,xj) = ∑ j∈Ni 1 |Ni| = 1 (4) となり，隣接する頂点の個数の違いに対してロバストになる．この手法は重み行列の個数を固定し，隣接する各頂点との行列積を求めそれらを足し合わせるという点で，TBCNNで用いたASTへの畳み込みをグラフ用に修正したものであると考えることができる．特に重み行列の数がm= 1の場合，AST への畳み込みを示す式(1)で位置情報を考慮しない場合と同じ操作となる．MouらはTBCNNによるASTへの畳み込みにおいて，m= 1としたときの式(2)と同じ操作と，彼らが提案したノードの位置情報を用いる式(1)による操作を用いた場合を比較し，正解率が1.3%下がったことを報告している [2]．ASTノードの位置情報を無視することで正解率がある程度下がったものの，位置情報が存在しないPDGにおいては，式(2)でm= 1とした場合であっても有効であると考えられる．ASTへの畳み込みと比べて異なる点として，PDGの性質により隣接する頂点の位置情報を用いた重みの調節が不可能

(5)

int isprime(int n) { int i; for(i=2;i*i<=n;i++) if(n%i==0) return 0; return 1; }

int main(int argc, char* argv[]) { int m,j; scanf("%d",&m); for(j=3;j*2<=m;j+=2) if(isprime(j)&&isprime(m-j)) printf("%d %d\n",j,(m-j)); return 0; } 図4:データセットに含まれるソースコードの例．入力値m に対し，素数jと素数m−jの組み合わせを出力する．な点，また，重み行列を複数用いるケースが定義されており，その場合に重み行列に頂点viと隣接する頂点vjを用いた学習可能な係数がかけられている点が挙げられる．提案手法で用いるPDG上には制御依存，データ依存，実行依存の3つの依存関係が存在する．そこで提案手法ではPDG を3つのグラフに分ける．PDGへの畳み込みを適用する際，それぞれのグラフで異なる機能的側面を得ることを期待し，式 (2)で用いるパラメータをそれぞれ3種類用意して別々に畳み込みの適用を行う．したがって畳み込み適用後の各頂点の特徴ベクトルは3種類存在する．提案手法では，ある頂点に属する3種類のベクトルz1,z2,z3∈RNg に対し，それらをまとめたベクトルzcomb∈RNg を以下により算出する． zcomb=C1z1+C2z2+C3z3 (5) ここで，C1,C2,C3∈RNg×Ngは重み行列を示す．これらの重み行列は対角行列として初期化する． PDGの頂点数はソースコードによって異なるため，PDGへの畳み込み適用後に存在するベクトルの個数も異なる．提案手法ではTBCNNと同じくone-way poolingを行い，1つのベクトルにまとめる．まとめられたベクトルは全結合層の入力として与えられ，最後にソフトマックス関数によってそれぞれのラベルに対しその事後確率に相当する予測値を出力する．

4. 性能評価

4.1. タスクの詳細およびデータセット

本研究ではソースコードの機能性によるクラス分類問題を解くことにより提案手法によるモデルの検証を行う．本実験ではMouらが公開しているデータセット[2]を使用した．このデータセットはオンラインジャッジシステムに提出されたソースコードである．オンラインジャッジシステムは提出されたソースコードによる出力が期待されたものかを自動的に判定するものである．ソースコードはC言語により記述されている．データセットには主に初学者向けの問題に対して提出されたソースコードが含まれている．フィボナッチ数列や素数の計算を用いるような，1つの目的を成す短い処理が記述されており，行数の平均は35.9である．データセットに含まれるソースコードの例を図4に示す．オンラインジャッジシステムにおける問題（課題）はソースコードの機能性を示すトピックとして考えられるため，提案手法のモデルの評価の題材として最適であると考えられる．用意されるオンラインジャッジシステムの問題数は104であり，その問題番号を教師ラベルとして扱う．1つのソースコードファイルにつき，1つのラベルが対応する．それぞれの問題につきソースコードの数は500あり，ソースコード数の図5: TBCNNと提案手法の構成の比較．TBCNNではASTへの畳み込み後に動的プーリングを用い，1つのベクトルにまとめる．提案手法ではPDGの頂点ごとに動的プーリングを用い，PDGに畳み込みを適用した後，動的プーリングを適用して1つのベクトルにまとめる．合計は52000となる．データセットは訓練データ，検証データ，テストデータの順に3:1:1で分割した．ASTのパーサとしてpycparser1を用い，それを元にPDGを作成した．データセットの統計値を表1に示す（CDは制御依存，DDはデータ依存，CFは実行依存を示す）．ソースコードの行数の平均は 35.9となり，比較的短いソースコードが含まれている．表1:データセットの統計値 Statistics Mean Std. # of code lines 35.9 18.8 # of AST nodes 188.6 106.0 Avg. leaf nodes’ depth in AST 7.6 1.7 # of PDG vertices 27.4 14.9 # of CD adjacents of each vertex 1.9 2.6 # of DD adjacents of each vertex 2.7 4.9 # of CF adjacents of each vertex 2.4 1.2

4.2. モデルの構成と学習手法

提案手法ではASTへの畳み込み適用後，PDGの各頂点のベクトルをone-way poolingによって決定する．その後，PDG に対して畳み込みを適用し，one-way poolingによって1つのベクトルにまとめ，全結合層へと接続する．ASTへの畳み込み層後の構成を図5に示す．TBCNNではASTへの畳み込み適用後，PDGを用いずにそのままone-way poolingによって全結合層へ接続する．最適化アルゴリズムにはMomentum SGDを用いた．指標を検証データにおける正解率，期間を10エポックとした早期 1. https://github.com/eliben/pycparser

(6)

図6: PDGへの畳み込み層の次元数と検証データに対する正解率終了（Early Stopping）により学習を停止させる．検証によって決定された各層の次元数およびハイパーパラメータを表2 に示す．ASTの各ノードのベクトルはノードの種類によって次元数30のベクトルとして初期化される．ASTへの畳み込み層で用いる次元数は600とした．これはMouらが彼らの検証によって得た畳み込み層の次元数と等しい[2]．PDGへの畳み込み層の次元数は2000とし，全結合層の次元数はPDG への畳み込み層の次元数と同じく2000とした．PDGへの畳み込み層の次元数と対応する検証データへの正解率を図6に示す．表2:ハイパーパラメータ Hyperparameter Value Learning rate 0.001 Momentum 0.9 埋め込み層の次元数 30 ASTへの畳み込み層の次元数 600 PDGへの畳み込み層の次元数 2000 全結合層の次元数 2000

4.3. 各種依存関係の比較

PDGの各依存関係が機能性によるソースコードの分類にどれほど有効なリソースであるかを確認するため，各種依存関係を単独で用いたモデルを用意し，検証データに対する正解率を比較した．各種依存関係を単独で用いる場合も，全ての依存関係を考慮した場合と可能な限り同じ枠組みでモデルを構成した．提案手法では，PDGに3種類のグラフが存在するため，1-制御依存，2-データ依存，3-実行依存といったように 3つのグラフに分け，それぞれ別のパラメータを用いて個別に計算を行う．各種依存関係を単独で用いるこの実験では，それら3つのグラフで用いる依存関係を検証対象となる依存関係のみとした．例えば制御依存を単独で用いる場合，1-制御依存，2-制御依存，3-制御依存として，同じ依存関係を持つグラフを3つ用意し，異なるパラメータを用いて学習を行った．各種依存関係の組み合わせを用いたモデルの結果を表3に示す．各種依存関係を単独で用いた場合，制御依存を用いたときの正解率が95.3%と最も高くなった．次点で実行依存の 95.2%となり，データ依存を単独で用いた場合は94.7%と制御依存のみを用いた場合に比べて正解率が約0.5%低い結果となっている．ソースコードの意味的，機能的特徴の獲得において，本実装により作成したデータ依存関係は他の依存関係と比較して重要でないと考えられる．隣接する頂点を用いた畳み込みの効果を調査するため，依存関係を用いない場合，つまりエッジが一切存在しないグラフを3つ用いた場合のモデルの学習を行った．正解率は95.3%と制御依存のみを用いた場合とほぼ同等の性能を示した．AST への動的プーリングの適用によって得られた各頂点ベクトルがそれ自体にソースコードの機能的特徴を示す情報を多く含んでいると考えられる．またPDGの頂点は1行分のコード片であり，各種依存関係を解析しなくともある程度の性能が見込めることが言える．全ての依存関係を用いた場合の正解率は95.8%となり，各種依存関係を単独で用いた場合と比較し，最も高い正解率を示した．それぞれの依存関係を組み合わせて用いることにより，単独の依存関係からは得ることのできなかった機能的特徴を得ることが可能であると考えられる．データ依存関係を単独で用いた時の正解率が低いことから，データ依存関係が全ての依存関係を組み合わせた場合の正解率を引き下げている可能性が考えられる．そこでデータ依存関係におけるエッジを全て削除し学習を行った．結果，データ依存エッジを削除した場合の正解率は96.0%と，削除する前よりも0.2%程度上がった．表3:各種依存関係の組み合わせによる正解率の比較用いる依存関係 Validation Acc. (%) 制御依存_×3 95.3 データ依存_×3 94.7 実行依存_×3 95.2 依存関係なし_×3 95.3 制御依存，データ依存，実行依存 95.8 制御依存，依存関係なし，実行依存 96.0

4.4. 提案手法と

TBCNN

との比較

機能性によるソースコードの分類問題において，既存研究の中で最も性能が良いと考えられるTBCNNと比較することにより，提案手法によるモデルの性能の評価を行う．提案手法によるモデルとTBCNNの構成は図5によって示される． TBCNNで用いる各次元数は検証により畳み込み層を600とし，全結合層の次元数も畳み込み層と同じく600とした．提案手法によるモデルで扱う依存関係の組み合わせとして，4.3 節による実験に基づき，制御依存関係，実行依存関係，依存関係なしのものを用いる．テストデータに対する本手法の正解率はTBCNNの正解率を上回った（表4）．ASTの構造情報だけでなくPDGの構造情報を考慮することにより，さらにソースコードの持つ意味的，機能的特徴を捉えることが可能であると考えられる．表4: TBCNNと提案手法の正解率の比較

Classifier Test Acc. (%)

TBCNN 93.3 提案手法 95.8

4.5. AST

への畳み込みの有無による影響

提案手法ではPDGの各頂点ベクトルを集める際，ASTへの畳み込み処理を行ってから各ノードをone-way poolingにより1つにまとめた．よってPDGの頂点ベクトルの値が決定される際には，ASTの構造情報を考慮した特徴を各頂点が持っていると考えられる． ASTへの畳み込みの適用がどれだけ正解率へ影響しているかを確認するため，ASTへの畳み込みの適用を省いたモデルを用い学習を行った．入力となるASTノードのベクトルはランダムに初期化され，各ノードのベクトルに対し，対応する PDGの頂点ごとにone-way poolingを適用し，PDGへの畳み込みの適用を行う．PDGへの畳み込み層の次元数，またその後の全結合層の次元数はASTへの畳み込みを用いた場合と同じく2000とした．

(7)

ASTへの畳み込みを用いない場合，検証データに対する正解率は90.0%となり，ASTへの畳み込みを用いる場合と比べ 5.8%程度低下した（表5）．AST内の構造情報を捉えたベクトルを用いてPDGの頂点のベクトルを決定することにより，頂点間の関係性をASTの構造を考慮しながら得ることができ，さらなる機能的特徴を得ることが可能であると考えられる．表5: ASTへの畳み込み層の有無による正解率の比較

Classifier Validation Acc. (%)

ASTへの畳み込み層を使用 95.8 使用しない 90.0

4.6. 誤分類されるソースコード

提案手法によるモデルがソースコードの特徴をどのように捉えているのかを調べるため，学習済みのモデルがテストデータにおいて誤分類したソースコードをいくつか取り上げ，分類に成功したソースコードと比較した．例えば問題43は素数の計算を用いる問題であり，典型的なコードは図4で示される．問題43に提出されたソースコードの殆どは素数を探索するためにfor文を1つだけ用いており，for文を二重で（ネストさせて）記述しているものは少ない．問題43に提出されながら誤分類されてしまった6個のソースコードの内，3個が問題68へ集中して誤分類されていた．誤分類先である問題68では問題43と同じく素数の計算を行う必要があり，処理すべき内容も酷似している．しかしながら問題68は素数の探索を行う処理を複数回行う必要があり，殆どのソースコードおいて二重のfor文を用いる記述がされている．誤分類されたソースコードは問題43に則った動作をするが，記述の内容が冗長であり，for文が二重に用いられていた．このため，その記述が主流であり，かつ似たような処理を行う必要のある問題68へ誤分類してしまったと考えられる．以上の例のように，実際には同じ問題に提出された同じ結果を出力するソースコードであっても，ASTまたはPDGの構造が該当する問題の訓練データに少なく，他の問題に属する訓練データに多い場合はそちらへ誤って分類されてしまうことが考えられる．解決策の1つとしてデータセットを増やすということが考えられるが，増やした場合であっても異なる問題間でASTやPDGの構造の違いが曖昧であるものは存在する．これは人の手によってソースコードを記述する上で必ず起こりうる問題であると考えられる．また訓練データでは殆ど見られないような構造のASTやPDGを生成するソースコードは誤分類される可能性が高くなる．これらのようなケースにおいて，提案手法によるモデルはソースコードの機能性による分類を正しく行うことができないと考えられる．

5. まとめと今後の課題

本研究では機能性によるソースコードの分類問題において，ニューラルネットワークの入力としてASTに加えPDGの構造情報を用いた．我々のモデルはTBCNNを拡張する形で構成され，ASTだけでなくPDGに対して畳み込みの適用を行う．モデルの評価として，オンラインジャッジシステムに提出されたソースコードを問題番号に分類するタスクを用いた．問題数は104であり，それぞれ500個のソースコードが含まれる．このタスクはソースコードの意味的，機能特徴を捉えなければならないという点でモデルの評価に適切であると考えられる．提案手法によるモデルはソースコードの機能性による分類というタスクにおいて，既存研究の中で最も性能が高いと思われるTBCNNを上回る性能を示した．この結果からASTの構造だけでなくPDGの構造を考慮することにより，ソースコードの機能的側面をさらに捉えることが可能であると考えられる．本研究では提案手法において各種依存関係を単独で用いることにより，各種依存関係がそれぞれどの程度ソースコードの機能的特徴を表しているかを調査した．検証結果により，依存関係の中では制御依存関係が最も機能的特徴を表している可能性があること，本実装によるデータ依存関係はソースコードの機能的特徴をうまく表していない可能性があることが示された．また隣接する頂点を一切考慮しない場合であっても，制御依存を単独で用いた場合と同程度の性能を持つことを示した．各種依存関係を組み合わせて解釈した場合，依存関係を単独で用いたどの場合よりもソースコードの機能的側面を捉えることが可能であることがわかった．本実装ではプログラム依存グラフを用いたが，ポインタに関する詳細な依存関係や関数間の関係における依存関係を考慮していない．またPDGは有向グラフであるが，提案手法では無向グラフとして畳み込みを適用した．これらを考慮したモデルの提案，また性能の検証は今後の課題となる．本実験では平均して35.9行程度のソースコードを用いた．それらはソースコード単体で1つの目的を成す処理が実装されている．しかしながら実務において，ソースコードの行数は本実験で用いたデータセットのものより大きい場合が殆どであり，また複数のソースコードへ分割して実装することや，外部のライブラリを用いることが殆どである．それらの場合への対応，また複数のソースコードが含まれるライブラリやプロジェクトなどへの対応が今後の展望となる．

参考文献

[1] P. Lerthathairatet al., “An approach for source code classification to enhance maintainability,” in2011 8th International Joint Con-ference on Computer Science and Software Engineering (JCSSE), May 2011, pp. 319–324.

[2] L. Mouet al., “Convolutional neural networks over tree structures for programming language processing,” inProc. 30th AAAI Confer-ence on Artificial IntelligConfer-ence. AAAI Press, 2016, pp. 1287–1293. [3] A. V. Phanet al., “Automatically classifying source code using tree-based approaches,”Data and Knowledge Engineering, Jul 2017, in press.

[4] 肥後芳樹他, “プログラム依存グラフを用いたコードクローン検出法の改善と評価,” 情報処理学会論文誌, vol. 51, no. 12, pp. 2149–2168, 2010.

[5] D. E. Chandra et al., “Class Break Point Determination Using CK Metrics Thresholds,”Global Journal of Computer Science and Technology, vol. 10, no. 14, pp. 73–77, 2010.

[6] K. J. Ottenstein et al., “The program dependence graph in a software development environment,” inProc. the First ACM SIG-SOFT/SIGPLAN Software Engineering Symposium on Practical Software Development Environments, ser. SDE 1. ACM, 1984, pp. 177–184.

[7] L. Jianget al., “Deckard: Scalable and accurate tree-based detection of code clones,” in 29th International Conference on Software Engineering (ICSE’07), May 2007, pp. 96–105.

[8] T. A. D. Hendersonet al., “Sampling code clones from program dependence graphs with GRAPLE,” inProc. the 2nd International Workshop on Software Analytics - SWAN 2016, 2016, pp. 47–53. [9] M. Alvareset al., “Application of computational intelligence for

Source Code classification,” in2014 IEEE Congress on Evolution-ary Computation (CEC). IEEE, jul 2014, pp. 895–902. [10] S. Horwitz et al., “Interprocedural slicing using dependence

graphs,” in Proc. the ACM SIGPLAN 1988 Conference on Pro-gramming Language Design and Implementation, ser. PLDI ’88. ACM, 1988, pp. 35–46.

[11] R. Socher et al., “Dynamic pooling and unfolding recursive au-toencoders for paraphrase detection,” in Proc. the 24th Interna-tional Conference on Neural Information Processing Systems, ser. NIPS’11. Curran Associates Inc., 2011, pp. 801–809.

[12] N. Verma et al., “Dynamic Filters in Graph Convolutional Net-works,”arXiv preprint arXiv:1706.05206, Jun 2017.

Exploiting Program Dependence Graph for Source Code Classification by Functionality

プログラム依存グラフを用いた機能性によるソース

コード分類の研究

著者

延原 宙斗

出版者

法政大学大学院情報科学研究科

雑誌名

法政大学大学院紀要. 情報科学研究科編

巻

13

ページ

1-6

発行年

2017-03-31

URL

http://doi.org/10.15002/00021528

プログラム依存グラフを用いた機能性によるソースコード分類の研究

Exploiting Program Dependence Graph

for Source Code Classification by Functionality

延原 宙斗

Hiroto Nobuhara

1.

はじめに

2.

関連研究

3.

提案手法

3.1.

使用するプログラム依存グラフ

3.2. AST

への畳み込みの適用

3.3. PDG

の頂点のベクトルの決定

3.4. PDG

への畳み込みの適用

4.

性能評価

4.1.

タスクの詳細およびデータセット

4.2.

モデルの構成と学習手法

4.3.

各種依存関係の比較

4.4.

提案手法と

TBCNN

との比較

4.5. AST

への畳み込みの有無による影響

4.6.

誤分類されるソースコード

5.

まとめと今後の課題

参考文献

延原宙斗

延原宙斗