همبستگی (Correlation)

ارتباط بین دو متغیّر. همبستگی برآوردی از میزان نزدیکی دو متغیّر کواریانت است و مقدار آن از صفر تا یک تغییر می­کند. علامت مثبت نشان دهنده همبستگی مثبت و علامت منفی نشان دهنده همبستگی منفی است. ضریب همبستگی نزدیک 1 یا 1- همبستگی قوی و ضریب نزدیک صفر همبستگی ضعیف را نشان می­دهد. بهترین راه برای نمایش گرافیکی همبستگی استفاده از اسکاترگرام است. 

منبع: کیانی، بهمن. 1393. کاربرد روش های پیشرفته آماری در منابع طبیعی، انتشارات دانشگاه یزد، 522 صفحه.

تمایل مرکزی (Central Tendecy)

شامل مجموعه ای از شاخص ها که میزان تمایل به مرکز داده ها را نشان می­ دهند. میانگین همیشه بهترین شاخص برای توصیف داده ­ها نیست. یک دلیل این است که خیلی تحت تأثیر اعداد خیلی بزرگ یا خیلی کوچک قرار می گیرد. اعداد 30000، 9،8،7،،6،5،4،3،3،2،2،2،1 را در نظر بگیرید. میانگین اعداد فوق 2146.9 است. اما به طور حتم تحت تأثیر عدد آخر یعنی 30000 قرار دارد. به همین علت نمی ­تواند منعکس کننده تمایل مرکزی داده­ ها باشد. برای حلّ این مشکل، دیگر شاخص ­ها مانند میانه (در مثال بالا عدد 4) و نما (در مثال بالا عدد 2) مورد استفاده قرار می­ گیرند. 

منبع: کیانی، بهمن. 1393. کاربرد روش های پیشرفته آماری در منابع طبیعی، انتشارات دانشگاه یزد، 522 صفحه.

تجزیه واریانس (Analysis of Variance=ANOVA)

روشی برای بررسی اختلافات بین چند گروه است. هدف تجزیه واریانس این است که مشخص کند چند گروه از مشاهدات اختلاف معنی دار دارند یا خیر. مثلاً آیا میانگین قطر برابر سینه سه گونه درختی که در مناطق مختلف کاشته شده اند یکسان است یا خیر. تکنیک تجزیه واریانس شامل اندازه گیری واریانس میانگین گروه‌ها و مقایسه آن با واریانس پیش بینی شده در حالتی است که گروه‌ها به صورت تصادفی از یک جمعیت انتخاب شده اند.

منبع: کیانی، بهمن. 1393. کاربرد روش های پیشرفته آماری در منابع طبیعی، انتشارات دانشگاه یزد، 522 صفحه.

تعداد نمونه مناسب در مطالعات شیلات (مزارع تکثیر و پرورش ماهی)

الف) برای تشخیص بیماری:

براساس قوانين OIE حد اقل بايستي از 10 ماهي در حال مرگ يا با تظاهرات بيماري نمونه برداري انجام شود . بهر حال با توجه به تاريخچه ، ماهيت بيماري ، دسترسي به نمونه مطلوب ، ارزش ماهيان بيمار و يا توان آزمايشگاهي ممكن است نمونه برداري از تعداد متر صورت بگيرد ولي اين تعداد نبايستي كمتر از 5 عدد باشد .

ب) برای صدور گواهی بهداشتی یا بررسی های دوره ای:

بستگي به اندازه جمعيت مورد نظر و نيازمنديهاي مربوط به نوع مقررات وضع شده در هر كشوري دارد. معمولا تعداد نمونه برای رسیدن به يك دقت معین تعیین می شود. لذا ابتدا خطای مجاز (معمولا بین 3 تا 10 درصد) مشخص و بعد از رابطه زیر تعداد نمونه محاسبه می شود:


در این رابطه N حجم جمعیت p نسبت بیمار (با نمونه برداری اولیه مشخص می شود) q عبارت از 1-p و d خطای نمونه برداری مجاز هستند. اگر حجم جمعیت زیاد باشد از رابطه زیر هم می توان استفاده کرد. همچنین در صورت عدم انجام مطالعه اولیه می توان مقدار p و q را 0.5 در نظر گرفت:

نمونه برداری قطاعی (Sector Sampling)

در این روش که برای نمونه برداری قطعات باقی مانده جنگل در قطع یکسره ابداع شده و برای جمعیت هایی با الگوی پراکنش کپه ای نیز به نظر مناسب می آید، هر توده به مثابه یک دایره به محیط 360 درجه در نظر گرفته می شود. سپس در این دایره یک یا چند قطاع با زاویه مشخص مورد برداشت قرار گرفته و نتایج با توجه به مقدار زاویه، به کل دایره (توده) تعمیم داده می شوند:

 

می توان در هر قطاع تعدادی قطعه نمونه یا خط نمونه به صورت منظم اما با نقطه شروع تصادفی نیز برداشت کرد. نکته جالب در این روش آن است که اگر قطاع ها به صورت تصادفی انتخاب شوند، محل شروع آنها می تواند به دلخواه مشخص شده و بدون اریبی بودن این مساله به اثبات رسیده است. البته ایده آل این است که شروع قطاع از وسط لکه باشد. 

در تحقیق سراج (1395) که در جنگل های ارس فیروزکوه انجام شد مشخص شد که صحت این روش کمتر از روش قطعه نمونه با مساحت ثابت است اما از نظر اماری اختلاف معنی داری بین دو روش در برآورد تراکم و تاج پوشش در هکتار قطعات نمونه وجود ندارد.

Nicholas J. Smith and Kim Iles . 2012. Sector Sampling—Synthesis and Applications. Forests 3: 114-126; doi:10.3390/f3010114

سراج محمدحسین. 1385. بررسی کارایی روش نمونه برداری قطاعی در جنگل های ارس امین اباد فیروزکوه، پایاننامه کارشناسی ارشد، گروه جنگلداری، دانشگاه یزد (راهنما: دکتر بهمن کیانی).

 

اثر تبدیل لگاریتمی در نرمال کردن توزیع داده ها

معمولا تبدیل لگاریتمی توزیع داده ها را نرمال یا نزدیک به نرمال می کند. این مساله با ملاحظه هیستوگرام داده ها کاملا مشهود است. شکل زیر منحنی توزیع داده های یک متغیر را قبل از تبدیل لگاریتمی (راست) و پس از تبدیل (چپ) نشان می دهد. در مواردی که تعداد داده ها در کران پایین یا بالای توزیع خیلی زیاد است (مثلا وقتی که تعداد زیادی صفر در داده ها هست) تبدیل های مختلف نخواهند توانست توزیع را نرمال کنند. لازم به ذکر است که بررسی نرمالیته باید با آزمون انجام شود (کلموگروف - اسمیرنف یا شاپیرو -ویلک) و بررسی هیستوگرام تنها در آزمون تجزیه واریانس که خیلی به نرمالیته داده ها حساس نیست و یا برای انتخاب تبدیل مناسب کاربرد دارد. 

خرید آنلاین کتاب کاربرد روشهای پیشرفته آماری در منابع طبیعی

به اطلاع علاقه مندان به کتاب کاربرد روش های پیشرفته آماری در منابع طبیعی می رساند، علاوه بر کتاب فروشی های معتبر، امکان خرید اینترنتی کتاب در سایت های زیر فراهم است:

http://ketabiran.ir

http://www.adinehbook.com/gp/product/6006309556

مستقل بودن مقادیر خطا - نوشته قبلی

مستقل بودن مقادیر خطا، جزو پیش شرطهای تحلیل رگرسیون است. برای کنترل این شرط می­توان از آزمون Durbin-Watson  استفاده کرد یا نمودار خودهمبستگی مقادیر خطا را ترسیم نمود. اگر مقدار آماره این آزمون برابر با 2 باشد خودهمبستگی برابر صفر است. مقادیر نزدیک صفر و 4 به ترتیب خودهمبستگی قوی مثبت و منفی را نشان می­دهند. برای اطلاعات بیشتر به رفرنس زیر مراجعه فرمایید:

 

کیانی، بهمن. 1393. کاربرد روش های پیشرفته آماری در منابع طبیعی، انتشارات دانشگاه یزد، 522 صفحه.

طول مناسب ترانسکت در نمونه برداری پوشش گیاهی

به طور معمول طول ترانسکت با کار میدانی و به نحوی تعیین می شود که 15-10 درخت یا درختچه خط نمونه را قطع کنند. البته استانداردهایی نیز در این زمینه تعیین شده از جمله این که بر اساس درصد تاج پوشش جنگل می توان طول مناسب را به شرح زیر تعیین کرد:

 

                      تاج پوشش (درصد)                             طول ترانسکت (متر)

                             1-10                                                 400

                            10-50                                                200

                          50-100                                                100

لازم به ذکر است که معمولا در جنگل های خارج از شمال معمولا ناهمگنی بسیار زیاد بوده  و تعیین تاج پوشش جنگل برای استفاده از استاندارد فوق، خود مستلزم نمونه برداری در قسمتهای مختلف عرصه بوده و امکان خطا در تعیین آن وجود دارد. لذا به نظر می رسد انجام نمونه برداری اولیه در قسمتی از جنگل که معرف تمام آن باشد گزینه بهتری است. همچنین در جنگل های خارج از شمال، طول خط نمونه 200 متر احتمالا کافی خواهد بود.

ریشه میانگین مربعات خطای نرمال شده (NRMSE) - نوشته قبلی

با توجه به این که مقدار RMSE متناسب با واحد اندازه گیری متغیر است، مقایسه مقدار آن بین مدل های ساخته شده برای دو متغیر با واحدهای متفاوت (مثلا قطر بر حسب سانتیمتر با بیوماس و ارتفاع بر حسب متر با بیوماس) درست نخواهد بود. لذا مقدار RMSE را به دامنه داده های متغیر وابسته تقسیم کرده و آن را RMSE نرمال شده (NRMSE) می نامند. این معیار برای مقایسه مدل های مختلف مناسب خواهد بود. لازم به ذکر است که NRMSE زیر 10 درصد نشان دهنده دقیق بودن مدل، 20-10درصد مناسب بودن مدل، 30-20 درصد دقت متوسط و بیش از 30 درصد نشانه ضعیف بودن مدل است.

تبدیل داده در تحلیل رگرسیون و همبستگی (نوشته قبلی)

به طور کلی نرمال بودن توزیع داده ها شرط لازم برای تحلیل رگرسیون نیست. اما گاهی نرمال کردن داده ها منجر به بهبود مدل (بالا رفتن قابل توجه ضریب تعیین و بهتر شدن نمودارهای نرمالیته و پراکنش مقادیر خطا) می شود. در تحلیل همبستگی نیز تبدیل داده ها به منظور به دست آوردن ضریب همبستگی بالاتر انجام می شود. مهم ترین تبدیل در علوم زیستی تبدیل لگاریتمی است و معمولا توزیع داده ها را نرمال می کند. البته در صورت کم بودن تعداد داده ها معمولا هیچ تبدیلی نمی تواند توزیع را نرمال نماید. نکته این که در مورد بعضی داده ها مانند NDVI که مقادیر منفی دارند تبدیل لگاریتمی دچار اشکال می شود. تبدیل های دیگر مانند رساندن به توان دو و اضافه کردن مقدار ثابت به همه اعداد منجر به تولید مقادیر غیرواقعی برای شاخص می شود که این مساله پیش بینی را با مشکل مواجه می نماید.

نکته دیگر این که لزومی ندارد هر دو متغیر x و y تبدیل شوند بلکه ممکن است تنها یکی از آنها تبدیل شود. برای آشنایی با روش های مختلف تبدیل و دانستن این که چه نوع تبدیلی برای چه نوع داده مناسب است به رفرنس زیر مراجعه فرمایید:

کیانی، بهمن. 1393. کاربرد روشهای پیشرفته آماری در منابع طبیعی. انتشارات دانشگاه یزد

محاسبه تراکم و تاج پوشش در روش ترانسکت (نوشته قبلی)

فرض کنید در نمونه برداری پوشش گیاهی یک منطقه ترانسکت های 50 متری مورد استفاده قرار گرفته اند. برای برداشت هر خط نمونه، متر نواری را در امتداد آزیموتی که از قبل تعیین شده (ترجیحا در جهت گرادیانهای محیطی مانند ارتفاع از سطح دریا) قرار می دهیم. در مرحله بعد از یک سر ترانسکت شروع کرده و عدد مقابل با وسط تاج یا وسط تنه تمام گیاهانی که ترانسکت را قطع می کنند یادداشت می کنیم.

هنگام محاسبه ابتدا طول  ترانسکت را به تعداد فواصل بین گیاهان تقسیم کرده تا میانگین فواصل به دست آید. سپس عدد 10000 را به توان دوم این فاصله تقسیم می کنیم تا تراکم توده در هر ترانسکت به دست آید. میانگین تراکم در هکتار ترانسکتها، میانگین تراکم جکعیت را مشخص خواهد نمود. برای محاسبه تاج پوشش در هکتار کافی است میانگین مساحت تاج درختانی که با تراسکت برخورد دارند (تنه یا تاج) در تعداد در هکتار ضرب شود. همچنین برای محاسبه درصد تاج پوشش باید مجموع طول تاجهای درختانی که ترانسکت را قطع می کنند بر طول ترانسکت تقسیم و سپس در عدد 100 ضرب شود.


 

تفاوت آماره و پارامتر

در بحث آمار، همواره با يك سري اعداد و ارقام مواجه هستيم، برخي از آن‌ها مربوط به جمعيت هستند كه به آن‌ها پارامتر‌ گفته مي‌شود مانند ميانگين حقيقي (µ)، تعداد كل افراد جمعيت(N)  و واريانس جمعیت و يك سري ديگر هم به نمونه بر مي‌گردند (به واسطه نمونه­برداری به دست می­آیند) كه به آن‌ها آماره گفته مي‌شود. مانند: ميانگين  نمونه، تعداد افراد نمونه (n)، واريانس نمونه . توجه کنید که دسترسی به پارامترهای یک جمعیت مستلزم آماربرداری 100 درصد است. همچنین آماره­ها برآوردهایی از مقادیر واقعی جمعیت (پارامترها) هستند .

ماخذ:  کیانی بهمن. 1393. کاربرد روشهای پیشرفته آماری در منابع طبیعی. انتشارات دانشگاه یزد. 522 صفحه

طول و تعداد مناسب خط نمونه

همان گونه که می دانید، خط نمونه ها در واقع ترانسکت های منقطع هستند که به صورت سیستماتیک در منطقه مورد مطالعه برداشت می شوند. طول مناسب خط نمونه معمولا با جنگل گردشی تعیین می شود و نمی توان به دلخواه آن را در نظر گرفت. بر اساس تجربیات اینجانب در جنگلهای غرب کشور و نیز در جنگلهای خشک فلات مرکزی مانند توده های بنه -بادام و کیکم در جنوب استان یزد حداقل طول لازم برای به دست آوردن نتایج معقول 100 متر است. تحقیق انجام شده به وسیله یکی از دانشجویانم نشان داده که خصوصا برای تحقیقات در مورد یک گونه خاص، طول 50 متر واقعا کافی نیست. همچنین تعداد خط نمونه نباید در مقایسه با روش قطعه نمونه 50 در نظر گرفته شود وگرنه اشتباه نمونه برداری بیش از حد مجاز خواهد بود.

اریبی (Bias) چیست؟

به انحراف سیستماتیک برآورد های انجام شده از یک صفت از مقدار واقعی آن، اریبی گفته می شود. سیستماتیک به این معنی که برآوردها یا همواره کمتر از واقعیت و یا بیشتر از آن هستند. اریبی بیشتر ناشی از قوی نبودن روش نمونه برداری (Unrobustness)  و نقص در فرمول های محاسباتی آن است. به عنوان مثال روش شش درختی ممکن است حجم و سطح مقطع توده را همواره کمتر از واقعیت نشان دهد. اریبی در اثر نقص در دستگاههای اندازه گیری نیز امکان دارد به وجود بیاید. گاهی تبدیل داده ها نیز ممکن است باعث ایجاد اریبی در مقادیر پیش بینی شده به وسیله مدل بشود. مورد اخیر گاه در تحلیل های زمین آماری دیده می شود.

قطع سرویس بلاگفا

متاسفانه مدت طولانی به علت قطع سرور بلاگفا امکان به روز رسانی مطالب وبلاگ وجود نداشته است. به زودی مطالب جدید در سایت قرار خواهند گرفت.

همچنین بخش زیادی از مطالب مربوط به سال 93، آمارهای بازدید وبلاگ و غیره از بین رفته که مسئولین سایت در حال پیگیری آن هستند. برخی از مطالب در بکاپ تهیه شده توسط اینجانب موجود هستند که به تدریج آنها را در وبلاگ قرار خواهم داد.

بررسی روایی پرسشنامه

معمولا پس از تهیه پرسشنامه باید آن را در اختیار متخصصان رشته مربوط به موضوع تحقیق قرار داد تا اشکالاتی که در ظاهر سوالات هست را تشخیص داده و اصلاحات مناسب را پیشنهاد نمایند.  با این کار اصطلاحا «روایی صوری پرسشنامه» مورد تایید قرار می گیرد.

همچنین جهت بررسی نسبت روایی محتوایی پرسشنامه، برای هر یک از سوالات پرسشنامه، نظر متخصصان در مورد ضروری بودن یا نبودن آن سوال خواسته می شود. متخصص، لزوم وجود هر سوال را با سه گزینه مشخص می کند:

ضروری است - ضروری نیست اما مفید است - ضروری نیست 

در مرحله بعد با توجه به تعداد متخصصینی که یک سوال را ضروری دانسته اند، شاخصی تحت عنوان CVR از رابطه زیر محاسبه می شود:

 

مقدار شاخص CVR بدست آمده با توجه به تعداد متخصصین به کار گرفته شده با حداقل CVR قابل قبول که در جدول زیر درج شده مقایسه می شود. اگر مقدار محاسبه شده بزرگتر یا مساوی با CVR جدول بود سوال در پرسشنامه می ماند و در غیر اینصورت باید حذف شود. 

 برای بررسی روایی از شاخص CVI نیز استفاده می شود. بدین صورت که متخصصان «مربوط بودن»، «واضح بودن» و «ساده بودن» هر گویه (سوال) را بر اساس یک طیف لیکرتی 4 قسمتی مشخص می کنند. متخصصان مربوط بودن هر گویه را از نظر خودشان از 1 «مربوط نیست»، 2 «نسبتاً مربوط است»، 3 «مربوط است»، تا 4 «کاملاً مربوط است» مشخص می کنند. ساده بودن گویه نیز به ترتیب از  1 «ساده نیست»، 2 «نسبتاً ساده است»، 3 «ساده است»، تا 4 «ساده مربوط است» و واضح بودن گویه نیز به ترتیب از 1 «واضح نیست»، 2 «نسبتاً واضح است»، 3 «واضح است»، تا 4 «واضح مربوط است» مشخص می شود. در نهایت مقدار شاخص از رابطه زیر حساب می شود. اگر مقدار آن از بیش از 0.79 باشد باقی مانده وگرنه حذف می شود.