学術雑誌論文 コードレビュー分析におけるデータクレンジングの影響調査
Investigating the Effect of Data Cleaning Techniques for Code Review Analysis

戸田, 航史  ,  亀井, 靖高  ,  吉田, 則裕

58 ( 4 )  , pp.845 - 854 , 2017-04-15
ISSN:1882-7764
NII書誌ID(NCID):AN00116647
内容記述
本論文ではコードレビュー分析に対してデータクレンジングが与える影響を調査する.調査では,オープンソースソフトウェア開発プロジェクトであるAndroid,Chromium,OpenStackの3プロジェクトを対象とした.クレンジングはレビュアとレビュー開始・終了日時の2つに対して実施した.レビュアへのクレンジングとして,ビルドやテストの自動化を行うbotの除去を,レビュー開始・終了日時へのクレンジングとして,実際のレビューの状況をふまえた補正を行った.3プロジェクトから取得したデータを用いて,レビュア,レビュー開始・終了日時について,クレンジングを行ったデータと行わなかったデータをそれぞれ作成,比較した.比較の結果,botによるレビューはOpenStackでは全体の19.4%を占めていること,レビュー開始・終了日時へのクレンジングの有無により,レビュー期間に有意な差が出ることが分かった.この結果から,データクレンジングはコードレビュー分析に影響を与えうることが分かった.さらに具体的なコードレビュー分析として,レビュー経験とレビュー期間の関係(相関)の分析を対象に,レビュア,レビュー開始・終了日時のデータクレンジングを実施したデータと実施しなかったデータを分析し,その結果を比較した.比較の結果,クレンジングを行わなければ相関係数に影響を与えることが分かった.
In this paper, we investigate the effect of data cleansing techniques for code review analysis. We choose three open source software projects, Android, Chromium and OpenStack, then collect code review data from them. We perform two data cleansing techniques to the dataset. 1. remove bots from reviewers. 2. Correct review start and end time for reviewing time calculation. Then, we compare cleaning data and not cleaning data about each cleansing techniques and evaluate their effect. The results show both cleansing techniques effect to code review analysis, because 1. bots accounts for 19.4% in OpenStack review. 2. corrected reviewing time is significantly different from not corrected one. Additionally, we investigate a change of correlation coefficient of reviewers' experience and the reviewing time by performing both data cleansing techniques. The result shows cleansing to reviewers effect to the correlation.
本文を読む

https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=178660&item_no=1&attribute_id=1&file_no=1

このアイテムのアクセス数:  回

その他の情報