ここでは、実際に、デューディリ等でエラーテストを実施する際に、 エラーが発見されてしまった場合、どうように対処しているのかについて記載します。
なお、エラーの発生は”正しい”or”正しくない”の2択なので、 以下では母集団の分布は二項分布に従うとして記載します。
以下では、少しだけ数学的な話になります。 性善説にたてば、”正しくない(=エラーの発生)”は意図的に作業者が虚偽の報告を行わない限り、 システムの入力のオペレーションミスによる理由がほとんどであると考えられます。
このため、流動化される母集団の前提として、精度的に同質であると言えると考えられます。 そして、その中から無作為にサンプルを抽出し、母集団全体の実在性を検討するということになります。
すなわち、
また、”正しい”とする確立をpとすると、”正しくない”確立は1-pとなります。 ここで、q=1-pと置き換え、母集団の中から抽出するサンプルの個数をN、発生率がqであったとすると、 n個のエラーが発生する確率は以下のようになります。
ここで、以下の条件によって、必要個数を求めてみましょう。
となりますので、
が5%以下になれば良いということになります。この際、q=5%(エラーの最大発生率)とした場合、
0個のエラーが発生する信頼性(0個のエラーが発生する確立)が5%以下になれば良いということになります。
この式に当てはめると、N=59と算定されます。
ここで、留意が必要な点は、N個のサンプルの実在性を確認している間に、 エラーが1件でも発見された場合は、条件を満たさなくなるかというとそうではありません。
例えば、59個を確認している間にエラーが1件発見された場合、 さらにサンプルを追加して93個のサンプルに対して実在性を確認して、 エラーが合計で1件しか発見されなかったとすると、59個中0件エラーと同水準になります。
これは、にn=1として式を解けばこの個数は出てきます。
少し長くなりましたが、統計的な水準でのサンプル数には、このように求めていくことになります。
仮に、母集団の分布が正規分布に従うと仮定する場合は、 母集団の数がサンプル数の決定に必要となります。参考までに記載すると、
(西平重喜著,「統計調査法」,培風館より)
- n(サンプル数)
- N(母集団)=100,000件
- P(母比率)=2.5%
- F(サンプリング誤差)=2.5%

