التحقق المتقاطع Cross Validation
التحقق باستخدام المصادقة المتقاطعة Cross Validation
تحدثنا سلفا عن عملية استنتاج سطح مستمر من
بيانات نقطية فيما يُعرف بعملية التحشية Interpolation, ولكن قبل إنتاج السطح
النهائي، يجب أن يكون لديك فكرة عن مدى جودة توقع النموذج للقيم في المواقع الغير مقاسة.
فنحن لدينا نوعان من القيم؛ قيم مقاسة من الطبيعة Measured وقيم مستنتجة Predicted. يساعدك التحقق المتبادل
والتحقق من الصحة على اتخاذ قرار مستنير بشأن النموذج الذي يوفر أفضل التنبؤات. تُنتجُ
عملية التحقق 3 ثلاثة حقول؛ حقل للقيم المقاسة من الطبيعة وحقل للقيم المستنتجة من
نموذج التنبؤ وحقل ثالث للفرق بين القيمتين. تكون عملية استنتاج السطح دقيقة كلما
كان الفرق بين القيمة المقاسة والقيمة المستنتجة أقرب إلى الصفر. هذه الإحصائيات تشير
إلى ما إذا كان النموذج وقيمه المستنتجة مقبولة.
ما هي فكرة التحقق المتبادل والتحقق من الصحة؟
الفكرة
كما يلي: يتم اعتبار كل قيمة مقاسة كأنها قيمة مجهولة, ثم يتم استنتاجها مجددا
بمعلومية القيم الموجودة في باقي النقاط المقاسة. بهذه الطريقة، يمكنك مقارنة القيمة
المستنتجة بالقيمة المقاسة والحصول على معلومات مفيدة حول جودة نموذج التنبؤ (على سبيل
المثال ، semivariogram ودائرة البحث).
التحقق المتقاطع
يستخدم التحقق المتقاطع جميع البيانات المتوفرة
لتقدير نماذج الاتجاه والارتباط التلقائي. يتم اعتبار القيمة المقاسة كأنها قيمة
مجهولة, ثم يتم استنتاجها مجددا بمعلومية القيم الموجودة في باقي النقاط المقاسة. على
سبيل المثال ، يوضح الرسم البياني أدناه 10 نقاط بيانات. يتجاهل التحقق المتقاطع النقطة
الحمراء ويحسب قيمتها باستخدام النقاط التسع المتبقية (النقاط الزرقاء). تتم مقارنة
القيم المتوقعة مع الفعلية المحذوفة. يتكرر هذا الإجراء للنقطة الثانية، وهكذا لجميع
النقاط، يقارن التحقق المتقاطع القيمة المقاسة بالمتوقعة. إذا كانت النقاط الشاذة
أكثر من المتوقع, فيجب إعادة عملية التوقع مع تغيير معاملاتها مثل نصف قطر دائرة
البحث وعدد النقاط المقاسة في كل دائرة.
التحقق من الصحة
في عملية التحقق المتقاطع السابقة لم تتم
مقارنة القيم المقاسة بالقيم المستنتجة, فهذا يتم هنا في عملية التحقق من الصحة او
المصادقة. في المحلل الإحصائي Geostatistical Analyst , يزيل
التحقق أولاً جزءًا من البيانات (أطلق عليه مجموعة بيانات الاختبار) ثم يستخدم بقية
البيانات (أطلق عليها مجموعة بيانات المعالجة) لتطوير نماذج الاتجاه والارتباط التلقائي
لاستخدامها في التنبؤ، تتشابه أنواع الرسوم البيانية والإحصائيات الموجزة المستخدمة
لمقارنة التنبؤات بالقيم الحقيقية في كل من التحقق المتقاطع والمصادقة. يُنشئ التحقق
المتقاطع Cross Validation نموذجًا لمجموعة فرعية فقط من البيانات
، لذلك لا يتحقق مباشرةً من نموذجك النهائي ، والذي يجب أن يتضمن جميع البيانات المتاحة.
فدوره يقتصر على التحقق من صحة البروتوكول
(مجموعة المعاملات المحددة) المستخدم فقط،. إذا رضيتَ عن هذا البروتوكول, فيمكنك أن
تشعر بالراحة لأنه سيعمل أيضًا مع مجموعة البيانات بأكملها. بعد الانتهاء من التحقق
المتقاطع، يقوم نموذج التحقق من الصحة بحساب الفرق بين القيم المستنتجة والقيم
المقاسة, ومن البديهي أن هذا الفرق يجب أن يكون أقرب ما يكون إلى الصفر.
الأشكال البيانية
يقدم المحلل الإحصائي مخطط بياني مبعثر للقيم
المتوقعة مقابل القيم الحقيقية. من المفترض أن تنتشر هذه النقاط حول الخط ذي الميل
1: 1 (الخط الأسود المتقطع في الرسم الموضح أدناه). ومع ذلك ، عادة ما يكون الميل أقل
من 1. وهي خاصية من خصائص نموذج kriging تميل
إلى التقليل من تأثير القيم الكبيرة جدا والصغيرة جدا على عملية التنبؤ ، كما هو موضح
في الشكل التالي.
القيم المقاسة مقارنةً بالقيم المستنتجة
يتم إدراج معادلة الخط الأزرق أسفل الرسم مباشرة. مخطط الخطأ Error هو نفس
مخطط التنبؤ ، باستثناء القيم المقاسة التي يتم طرحها من القيم المتوقعة. بالنسبة إلى
مخطط الخطأ المعياري standardized Error ، تُطرح
القيم المقاسة من القيم المتوقعة وتقسم على أخطاء نموذج التنبؤ المعيارية المقدرة.
تُظهر كل هذه الأشكال البيانية الثلاثة مدى جودة توقع نموذج التنبؤ. كلما انطبق
الخط الأزرق على الأسود, كانت عملية التنبؤ مرضيّ عنها.
الشكل النهائي هو شكل QQ. ويوضح مقدار الفرق بين
القيم المتوقعة والمقاسة والمقدار المقابل من التوزيع الطبيعي القياسي. فكلما كان
للبيانات توزيع طبيعي Normal Distribution, كانت النقاط تقريبًا على
طول الخط الرمادي. إذا تم توزيع الأخطاء بشكل طبيعي ، فيمكنك أن تكون واثقًا من دقة
النموذج بالنسبة للبيانات ذات التوزيع الطبيعي مثل البيانات الكمية.
إحصائيات خطأ التنبؤ Mean Prediction Error
إحصائيات متوسط خطا التنبؤ
يُعرف الفرق بين القيمة المستنتجة والقيمة
المقاسة بخطأ التنبؤ, ومتوسط خطأ التنبؤ هو متوسط كافة هذه الفروق. إذا كانت أخطاء
التنبؤ مقبولة ، فيجب أن يكون متوسط خطأ التنبؤ قريبًا من الصفر. ومع ذلك، تعتمد
هذ القيمة حجم البيانات؛ لذا قد يلزم الأخطاء المعيارية في الاعتبار، تعطي أخطاء التنبؤ
المعيارية أخطاء التنبؤ مقسومة على الأخطاء المعيارية للتنبؤ. يجب أيضا أن يكون متوسط
هذه القيم قريبًا من الصفر. تعتبر هذه القيم المتوسط للأخطار المعيار الرئيسي من
المفاضلة بين أكثر من نموذج للتنبؤ.
إقرأ أيضا
كيف تعمل طريقة التحشية بتقنية RBF Radial basis functions ؟
تعليقات
إرسال تعليق