会議発表論文 メモリアクセスパターン依存故障の注入のためのQEMUベース故障注入器

小林, 佑矢  ,  Kobayashi, Yuya  ,  實本, 英之  ,  JITSUMOTO, HIDEYUKI  ,  野村, 哲弘  ,  Nomura, Akihiro  ,  松岡, 聡  ,  MATSUOKA, SATOSHI

2018-HPC-163 ( 8 ) 2018-02 , 一般社団法人情報処理学会 , Information Processing Society of Japan
ISSN:2188-8841
内容記述
近年,大規模計算機システムでの故障の増加が問題になっている.様々な耐故障技術が開発されたが,オーバーヘッドと耐故障性の間にトレードオフがあり,適切な手法の選択が難しい.耐故障技術の評価には故障注入が用いられるが,既存の故障注入器ではハードウェア特有の故障を再現し,アプリケーションレベルの詳細な解析ができない.我々は,ハードウェアに特有の故障を再現し,アプリケーションレベルの解析を容易に行える故障注入プラットフォームの提供を目的とする.本研究では,故障の主な発生源の一つである DRAM を対象にして,メモリアクセスパターン依存故障をメモリ I / O フックにより注入した上で,耐故障性テスト対象のプロセスのメモリマップ情報を取得できる QEMU ベース故障注入器 MH - QEMU を作成した.評価では,MH - QEMU の故障注入機能使用時には,テスト対象アプリケーションの実行時間が最良の場合でも 77 倍になることを確認した.中でも,メモリインテンシブであったり,ノード間通信が少ないアプリケーションほどオーバーヘッドが大きいことを確認した.また,MH - QEMU で NAS Parallel Benchmark の CG カーネルの耐故障性評価を行い,Row - Hammer 発生時に Silent Data Corruption につながりやすいデータ領域を特定した

このアイテムのアクセス数:  回

その他の情報