برای مشاهده پنجمین قسمت با موضوعات مربوط به ماتریس ها، لیست ها و توابع مرتب با آنها به ادامه مطلب بروید.
راهنمای R-(گرداآوری توسط خانم فرزانه باقری)-5
تفاوت بین نظر پرسی (poll) و بررسی (survey)
نظر پرسی این امکان را می دهد که یک سوال را مورد پرسش قرار دهید و شرکت کنندگان در آن می توانند از بین پاسخ های از پیش تعیین شده گزینه مورد نظر را انتخاب کنند. در این رویه می توانید انتخاب یک یا چند پاسخ را ممکن سازید. همچنین برای رای دهنده ها می توان گزینه دیگری را به عنوان جواب شخصی آنها در نظر گرفت.
یک بررسی(آمارگیری) امکان پرسش چندین سوال را از بین گستره ای از انواع سوالات بوجود می آورد. بنابراین می توان پیشنهاد، آدرس پست الکترونیکی، نام، آدرس و ... همچنین سوالات چند گزینه ای را جمع آوری نمود.
بنابراین به طور خلاصه می توان بیان نمود، نظر پرسی برای سوال در مورد یک پرسش استفاده می شود در حالیکه بررسی به طور کلی برای سوال با قابلیت درج گستره وسیعی از سوالات می باشد.
IBM SPSS Statistics 20 منتشر شد!!
شرکت IBM ، به تازگی نسخه 20 نرم افزار SPSS را با عنوان IBM SPSS Statistics 20 منتشر شد. در این نسخه نیز بهانه ارائه عرضه امکانات جدید به آن و بهیه سازی امکاات قبلی بوده است. به عنوان مثال در قابلیت های جدی این نرم افزار بیان شده است که جداول تا 5 برابر سریعتر ترسیم می گردند. برای دریافت اطلاعات بیشتر از ویژگی های جدید این نسخه به آدرس زیر مراجعه کنید:
پسورد جی استور!!
برای دوستان عزیز آماری( و البته غیر آماری) لینک زیر جهت استفاده از پایگاه های داده جی استور(شامل ۴۸ مجله آماری) قرار داده شده است. پس از کلیک کردن بر روی آن، نام کاربری schmidt و رمز ورود fireupdutch را وارد کنید.
لینک ورود به جی استور(J*S-T*o*r)
با توجه به اینکه این سایت به دانلود دوره ای و حضور زیاد در آن حساس می باشد خواهشمند است به این موارد توجه کنید تا پسورد آن برای مدت طولانی تری فعال باشد. توجه شود که غیر از مجله های آماری تعداد زیادی عنوان مجله، از علوم دیگر نیز وجود دارد.
با این پسورد می توانید از پایگاه های داده دیگر از جمله ساینس دایرکت (sciencedirect) با مراجعه به آدرس زیر استفاده کنید:
این لینک ممکن است هر زمانی غیر فعال شود خواهشمند بعد از آن تفاضایی در این مورد نفرمایید.
پسورد جی استور!! (2)
با سلام
برای دوستان عزیز لینک زیر جهت استفاده از جی استور درج شد است. با کلیک روی لینک مذکور و وارد نمودن نام کاربری و پسورد در صفحه باز شده، به صفحه بعدی انتقال می یابید که می توانید در لیست ارائه شده جی استور را انتخاب کنید.
http://doris.pfeiffer.edu:2048/login
username: thyde
password: 4067
لینک توسط اینجانب جهت ورود امتحان شده است، فقط خواهشمند است از دانلود دوره ای و حضور بلند مدت در این سایت جدا خودداری فرمائید. توجه شود که این پایگاه از نظر تعداد مجلات و پوزش کلی نسبت به پست قبلی ضعیف تر می باشد!
فنون کاربردی در نرم افزار R
برای دوستان آماری در ادامه چندین فن (تکنیک) جالب در نرم افزار R را بیان می کنیم. لازم به ذکر است تمامی مطالب از کتاب R cookbook ترجمه یا استخراج شده است لذا برای مطالغه بیشتر و کاملتر به این منبغ مراحعه کنید:
فن 1: برای مشاهده چندین سطر اول (6 سطر) یا چند سطر آخر یک مجموعه داده زیاد جهت بررسی اجمالی به ترتیب از دستورات (مجموعه داده)head و (محموعه داده)tail استفاده کنید.
فن 2: چنانچه همزمان بعد از تخصیص یک مقدار به متغیری خاص مثل x بخواهیم مقدار آن را مشاهده کنیم کافیست پرانتز را در اطراف تخصیص قرار دهیم. به عنوان مثال با تایپ عبارت ( x<-1/pi) در خط فرمان مفدار 0.3183099 در را نیز نمایش می دهد.
فن ۳: برای اجرای قسمتی یا تمامی برنامه نیاز به برآورد زمان اجرا دارید( این موضوع در زمانی که به دنبال بهینه کردن برنامه خود و مقایسه "قبل" و "بعد" از اصلاحات هستید کاربرد ویژه دارد). تابع system.time برنامه شما را اجرا و زمان صرف شده را گزارش می کند. نحوه استفاده از این تابع به صورت
(عبارت قابل اجرا شدن)system.time می باشد. این تابع دارای حداقل ۳ خروجی (تا ۵ تا( میباشد که سه تای اول مورد نظر ما می باشد که به ترتیب ۱- زمان CPU کاربری(تعداد ثانیه های CPU که برای اجرای R گذشته است) 2- زمان CPU سیستم(نعداد ثانیه های CPU که برای اجرای سیستم عامل گذشته است) 3- زمان منقضی شده(تعداد ثانبه ها بر اساس ساعت رایانه).
مثال: فرض کنید نیاز دارید که زمان مورد لازم برای تولید 10,000,000 عدد از توزیع نرمال و جمع آن را بررسی نمایید. برای این منظور می توانید به صورت زیر عمل کنید:
> system.time(sum(rnorm(10000000)))
user system elapsed
2.95 0.06 3.16
بنابراین R به میزان 2.95 از زمان CPU و سیستم عامل 0.06 ثانیه از زمان CPU را استفاده نموده است و 3.16 ثانیه از زمان اجرای آزمایش گذشته است. توجه شود که زمان سوم معمولا از مجموع دو زمان دیگر بدست نمی آید چرا که ممکن است در زمان اجرای برنامه R، سیستم شما در جال اجرای فرآیند های دیگری نیز باشد. از این رو زمان بیشتر بابت اینکه R در حال تقسیم CPU با فرآیند های دیگر است منقضی شود.
شبیه سازی قانون اعداد بزرگ برای پرتاب سکه
با سلام
در ادامه کد برنامه نویسی نرم افزار R برای نمایش غیر تئوری قانون اعداد بزرگ در مورد پرتاب سکه را می بینید. با کپی این کد و قرار دادن آن در نرم افزار R می توانید خروجی دلخواه را با تغییر در مقادیر پیش فرض آن مشاهده نمایید.
set.seed(1212) #ثابت نمودن خروجی در تکرارهای مختلف و برای نمایش ها آینده
n <- 500000# تعداد تکرار ها
p <- .5 # احتمال شیر آمدن
x <- sample(0:1, n, prob=c(1-p,p), repl=T)# می توان بجای این دستور از هر یک از کد دستورهای زیر هم استفاده نمود
# x <- rbinom(n, 1, p)
#x <- (runif(n) < p)
s <- cumsum(x); # بردار مجموع تجمعی
r <- s/(1:n)# بردار میانگین تجمعی
##### نمودار #############
upr <- min(1, p+.1)
lwr <- max(0, p-.1)
plot(r, ylim=c(lwr, upr), type="l")
lines(c(0,n), c(p,p), col="darkblue", lty=2)
err <- 1.96 * sqrt(p*(1-p)/n)
# نمایش بازه اطمینان بعد از آخرین مشاهده
lines(c(1.01*n,1.01*n), c(p+err,p-err),
col="darkgreen", lwd=2)
farb <- "darkgreen"
if (abs(p-r[n]) > err) farb <- "red"
text(n,(lwr+p-err)/2,
paste("r =",round(r[n],5)),
adj=1, col=farb)
title(paste("Heads Ratios up to",n,
"Tosses With P(H)=",p))
round(cbind(x,s,r), 5)[1:10,];# ده مقدار اول داده شبیه سازی شده، مقدار مجموع تجمعی و میانگین تجمعی
r[n]# آخرین مقدار
برای توضیحات بیشتر مشاهده فایل اصلی به لینک زیر مراجعه کنید:
تفاوت بین آماره (statistic) و پارامتر(parameter)؟؟
پارامتر کمیت عددی و معمولا نا معلوم می باشد که مشخصه ای معین در مورد کل جامعه را شرح میدهد مانند میانگین یا مُد جامعه. پارامترها اغلب برآورد می شوند چون مقدارشان معمولا نامعلوم است؛به خصوص زمانیکه جامعه به اندازه کافی بزرگ باشد حصول اندازه های مربوط به کل جامعه، غیر ممکن یا غیر عملی است(به طور قراردادی پارامترها را حروف یونانی نمایش می دهند).
در حالیکه آماره کمیتی است که از یک نمونه بدست می آید(مانند میانگین نمونه ای) و به عنوان یک برآوردگر پارامتر جامعه استفاده می شود(آماره معمولا با حروف لاتین نمایش داده میشود).
در انتها شایان ذکر است که اگر امکان انتخاب چندین نمونه از یک جامعه وجود داشت، آنگاه هر نمونه مقداری برای آماره عرضه می نمود که می توان از آن برای برآورد یک پارامتر خاص استفاده نمود. از سوی دیگر لزوما مقادیر آماره ها برابر نیستند و چنین تغییرات بین برآوردهای مستخرج از نمونه های مختلف خطای نمونه گیری نامیده میشود.
دانلود نرم افزار STATGRAPHICS Centurion XVI نسخه 16.1.11
برای دانلود نسخه رایگان(دانشجویی) این نرم افزار می توانید به سایت اصلی به آدرس زیر مراجعه نمایید:
با این حال دانلود ورژن ۱۶.۱.۱۱ در دو نسخه های ۳۲ و ۶۴ بیتی امکان پذیر میباشذ. جهت انجام این امور می توانید ابتدا فایل torrent زیر را که نرم افزار ویرایش 32 بیتی به همراه کرک را دانلود کنید. لازم به ذکر است جهت شروع دانلود اصلی به نصب نرم افزار های مناسب مانند Bittorrent نیاز دارید.
دانلود اس پی اس اس ورژن 20 (64 بیتی)
دانلود فایل تورنت نرم افزار اس پی اس اس ورژن ۲۰ از شرکت معتبر آی بی ام در لینک زیر قرار داده است. حجم فایل در حدود ۹۰۹ مگابایت می باشد که بدلیل نداشتن شرایط لازم جهت آپلود، در حال حاضر فقط امکان معرفی اینگونه نرم افزارها که در سایت های دیگر قرار دارند برای اینجانب امکان پذیر است. نرم افزار را به شخصه دانلود و کنترل نموده ام و مشکلی از بابت اجرا و تجزیه تحلیل وجود ندارد. توجه شود که پس از دانلود فایل زیر، می بایست با استفاده از نرم افزار تورنت مانند bitTorrent یا µTorrent منبع اصلی را دانلود نمود.
دانلود فایل Torrent نرم افزار S*P*S*S 20 نسخه 64 بیتی
دانلود SPSS 20 ، SPSSS version 20، IBM SPSS
پسورد جی استور!! (3)
با سلام
برای دوستان عزیز لینک زیر جهت استفاده از جی استور درج شد است. با کلیک روی لینک مذکور و وارد نمودن نام کاربری و پسورد در صفحه باز شده، به صفحه بعدی انتقال می یابید که می توانید در لیست ارائه شده جی استور را انتخاب کنید.
http://ezproxy.taylors.edu.my/login
username: 0707W59209
password: 3847774
صحت لینک توسط اینجانب جهت ورود امتحان شده است، فقط خواهشمند است از دانلود دوره ای و حضور بلند مدت در این سایت جدا خودداری فرمائید. در این پایگاه تمامی 48 مجله آماری به صورت رایگان در اختیار میباشد. بعلاوه به غیر از jstor تعداد زیادی دیگر از پایگاه های علمی (مانند ScopusT و Proquest) نیز در دسترس می باشند.
این لینک ممکن است هر زمانی غیر فعال شود خواهشمند بعد از آن تفاضایی در این مورد نفرمایید.
توابع خطی برآورد پذیر
در مدل خطی y=xb+e معاله نرمال به صورت t(x)xb=t(x)y می باشد. با توجه به اینکه ماتریس t(x)x ممکن است پررتبه نباشد(چون ماتریس طرح x به صورت ستونی پررتبه نیست) بنابرنی می بایست از معکوس تعمیم یافته جهت حل آن استفاده نمود. با توجه به اینکه بی نهایت معکوس تعمیم یافته وجود دارد لذا برای حل معادله نرمال بی نهایت جواب (و نه برآوردگر ) وجود دارد. از این رو اگر G یک معکوس تعمیم یافته برای ماتریس t(x)x باشد یک جواب معادله نرمال برابر b=Gt(x)y می باشد که با انتخاب G های مختلف این جواب متفاوت خواهد بود و جواب یکتایی وجود نخواهد داشت(غیر از زمانی که x ماتریس پررتبه ستونی باشد). سوالی در اینجا وجود دارد آیا توابع خطی را میتوان یافت که برای G های مختلف و در نتیجه b های مختلف یکتا باشد؟ جواب این سوال مثبت میباشد و همچنین توابعی، توابع خطی برآورد پذیر گوییم.
توابع خطی از b مانند t(q)bرا برآورد پذیر گوییم چنانچه k وجود داشته باشد که t(q)b=t(k) Ey. ( که Ey امید ریاضی y میباشد).
از روی تعریف بالا می توان ثابت نمود که هر تابع خطی از xb یا t(x)xb یا Eb نیز برآورد پذیر است. توابع برآورد پذیر دارای خواصی هستند که تعدادی آن به شرح زیر است :
- امید ریاضی هر مشاهده برآورد پذیر است.
- ترکیبات خطی از توابع خطی برآورد پذیر، برآورد پذیر میباشد.
- t(q)b برآورد پذیر است هر گاه t(q) =t(k)x
- t(q)b نسبت به را ه حلهای گوناگون b پایا می باشد.
- برآورد B.L.U.E برای t(q)b برابر t(q) b میباشد.
- تعداد توابع خطی برآورد پذیر با خاصیت "به طور خطی مستقل" برابر مرتبه ماتریس طرح یعنی x می باشد.
لازم به ذکر است که برای نمایش ترانهاده یک ماتریس مانند A از حرف t استفاده شده است و به خواننده محترم توصیه میشود جهت دریافت مباحث تکمیلی و اثبات مطالب گفته شده به کتاب های مربوط به مدل های خطی مراجعه نمایند.
چگونه یک مقاله آی اس آی بنویسیم؟
1- داشتن عنوان مناسب با تحولات روز :
عنوان مورد نظر باید کاملا واضح و دارای لغات کلیدی تحقیق باشد. عناوین طولانی سبب کاهش نمره ارزشیابی مقاله می شود .
2- چکیده مناسب :
چکیده تحقیق باید مختصر و مفید باشد .چهار بخش اصلی چکیده شامل:
3- بیان مسئله (2 تا 3 خط)
4- روش تحقیق :
نوع تحقیق ( میدانی – کتابخانه ای – طولی – تقاطعی - ...) (یک خط)
محل تحقیق ( مکان اجرا ) ( منطقه – شهر – کشور )(نیم خط)
دوره تحقیق )از ماه ....در سال ... تا ماه .....سال ....) (نیم خط)
جامعه تحقیق , نمونه تحقیق ( تعداد افراد منتخب ) (نیم خط)
روش انتخاب حجم نمونه: تصادفی ساده(باجایگذاری و بدون جایگذاری) – تصادفی خوشه ای - طبقه بندی.(نیم خط)..
نوع آزمون آماری : کای اسکوار(خی دو ) – تی استیودنت – رگرسیون – .. (نیم خط)
نوع مدل : نام مدل
5- نتایج تحقیق :
نتیجه فرضیه های تایید یا رد شده نوشته شود .( دو تا 3 جمله )
لغات کلیدی : حداکثر چهار کلمه
بخش های بعدی مقاله :
مقدمه ( Introduction ): در این بخش محقق با نوشتن مطالب کلی توجه خواننده را به سوی موضوع تحقیق متمایل می کند
بیان مسئله :
در اینجا هم ابتدا به تعریف مسئله بپردازید و سپس مشکلات و مسایل مرتبط با موضوع را بیان کنید و سعی کنید سوالهایی را که در فرضیات تحقیق مطرح نموده اید را دراین بخش به صورت جملات پرسشی مطرح نمایید
روز امار
اول آبان هر سال در تقويم رسمي جمهوري اسلامي ايران روز ملي آمار و برنامه ريزي نام گرفته است. در اين روز و هفته منتهي به آن (27 مهر تا 4 آبان) جنب و جوش مضاعفي بين جامعه آماري كشور رخ ميدهد. دليل اين فعاليت مضاعف و نمادين شناساندن علم آمار به عوام مختلف مردم اعم از مسئول و غير مسئول است. چرا كه بارها و بارها گفته شده است كه آمار علم مديريت و كشورداري است و تا از قابليتهاي اين علم پرسابقه مسئولين آشنا نشوند به استفاده از آن تمايل نخواهند داشت. اما چه افسوس اندك كساني كه با اين علم آشنايي دارند به راحتي آن را دست آويز سياستهاي خود نموده و تا جايي كه بتوانند از آمار به سود خود استفاده ميكنند و با سرپوش گذاشتن روي نقاط ضعف و برجسته نمودن نقاط قوت فقط به نيمه پر ليوان نگاه ميكنند در صورتي كه در علم آمار نيمه پر و خالي ليوان در كنار هم معنيدار خواهند بود. بويژه در شرايط نابسامان اقتصادي امروز كه از شرق تا غرب و از شمال تا جنوب اين كره خاكي تمامي دولتها درگير ركود اقتصادي هستند با استفاده درست و اصولي از علم آمار ميتوان موجبات رونق و توليد ثروت ملي را فراهم نمود.
يكي از راههاي برون رفت از اين معضل اجراي نظام جامع آماري كشور است كه وعده تاسيس آن كم كم به يك دهه خواهد رسيد، دستور العملي جامع كه بر تمامي توليدات، انتشارات و نرخهاي آماري نظارت خواهد داشت و با استاندارد سازي توليدات آماري نه تنها راه نفوذ و سوء استفاده از آمار را خواهد بست بلكه با جهت دهي مناسب مديران راههاي پيشرفت را نمايان خواهد نمود.
همانطور كه گفته شد آمار علم كشورداري است وليكن در كنار ساير علوم. در قرن 21 علوم به تنهايي كاربرد ندارند و رابطه بين رشتهها هر روز بيشتر و بيشتر نمود پيدا ميكند، مثال بارز اين سخن را ميتوان در مقالات ISI به وضوح مشاهده نمود چرا كه كمتر مقالهاي را ميتوان يافت كه در آن فقط از يك رشته خاص سخن گفته باشد. به همين منظور ادارات مركزي آماري كشورها به عنوان متوليان رسمي آمار نقش مهمي را در احيا و به روز رساني اين علم عظيم برعهده دارند. اين سازمانها براي اين تاسيس نشدهاند كه عدهاي در ساختمانهاي زيبا و مجللل آنها مشغول به كار شوند و هر ساله بودجههاي ميلياردي را هزينه كنند. بلكه هدف از تاسيس اين ادارات در ساده ترين كلام ارزيابي وضعيت موجود كشورها، مقايسه آن با گذشته و پيش بيني آينده است. يكي از ابزارهاي مهم اين كار سرشماري است كه تاكنون 7 دوره آن در ايران برگزار شده و هشتمين دوره آن در آبان 1395 انجام خواهد شد. در طول فرآيند تحليل دادههاي حاصل از سرشماري ميتوان شماي كلي از وضعيت موجود كشور را بدست آورد. كاهش نرخ رشد جمعيت، كاهش بعد خانوار، افزايش سن ازدواج، افزايش هرم سني جمعيت، افزايش مهاجرت به شهرها، افزايش نرخ بيكاري و .... عبارتهايي هستند كه از دل همين سرشماري بيرون آمدهاند. حال اگر اين گزارشات در بايگاني مراكز تصميم گيري خاك بخورند پس هدف از هزينههاي ميلياردي كه در قبل، حين و بعد از سرشماري عمومي نفوس و مسكن 1390 انجام شد چيست؟ آيا هدف اين نبود كه بتوان با استفاده از اين تحليلها وضعيت كشور را بهبود بخشيد؟ اما چه افسوس كه اين بار هم آمار دست آويز سياست مرداني خواهد شد تا مردم سياست زده را مدتي بازيچه خود قرار دهند!
يكي از راههاي برون رفت از اين معضل اجراي نظام جامع آماري كشور است كه وعده تاسيس آن كم كم به يك دهه خواهد رسيد، دستور العملي جامع كه بر تمامي توليدات، انتشارات و نرخهاي آماري نظارت خواهد داشت و با استاندارد سازي توليدات آماري نه تنها راه نفوذ و سوء استفاده از آمار را خواهد بست بلكه با جهت دهي مناسب مديران راههاي پيشرفت را نمايان خواهد نمود. تمامي اين نكات مستلزم وجود دادههاي آماري دقيق، جامع و به روز است. بنابراين آمار و اطلاعات يكي از عوامل مؤثر و ضروري براي برنامهريزي، ارزيابي عملكردها و تصميمگيري در سطوح مختلف مديريت بوده و سياستگذاران، برنامهريزان و كارشناسان براي تدوين راهبردها، سياستگذاري و تعيين خط مشي، برنامهريزي، نظارت، هماهنگي و هدايت برنامهها و نيز فعالان اقتصادي در فرآيند ارتقاء جايگاه كشور در بازارهاي جهاني به دادههاي آماري نياز دارند.
ميزان توسعه يافتگي كشورها ارتباط تنگاتنگي با حجم و كيفيت آمار و اطلاعات توليد شده توسط آنها دارد.
كاملاً واضح و روشن است كه آمار و اطلاعات پايه و اساس هر پژوهش، تصميم گيري، برنامه ريزي و سياستگذاري است. به همين جهت سياستگذاران، برنامه ريزان و كارشناسان براي تدوين برنامهها، سياستگذاريها و تصميم گيريها به دادههاي آماري ويژهاي نياز دارند كه براساس آنها تحليلهاي خرد و كلان خود را شكل دهند. برخي فعالان اقتصادي-اجتماعي به دادههاي آماري صنعت يا بازار خاصي توجه دارند، حال آنكه برخي ديگر علاوه بر آمارهاي موردي به دادههاي آماري متغيرهاي كلان اقتصادي توجه ميكنند. همچنين پژوهشگران به طيف گستردهاي از دادههاي آماري نياز دارند. استفاده از اين ابزار اساسي و مطمئن به نحوي مورد توجه قرار گرفته كه ميزان توسعه يافتگي كشورها ارتباط تنگاتنگي با حجم و كيفيت آمار و اطلاعات توليد شده توسط آنها دارد. تهيه و توليد اطلاعات آماري صحيح و ارائه به هنگام آنها به منظور رفع نيازهاي آماري جامعه به ويژه برنامههاي توسعه اقتصادي، اجتماعي و فرهنگي كشور و همچنين تغذيه پايگاه اطلاعات آماري از جمله مهمترين اهداف نظام آماري كشور ميباشد.
تفاوت بین تحلیل مولفه های اصلی (PCA) و تحلیل عاملی (FA)
شاید شنیده یا خوانده باشیم که ماهیت این دو روش یکسان است و این موضوع را می توان از استفاده آنها نیز نتیجه گرفت چنانکه برای بدست آوردن عاملها در عاملی FA یکی از روشها تحلیل مؤلفه های اصلی(مثلا در نرم افزار SPSS ) می باشد.
با این حال این دو تکنیک معمولا برای تحلیل گروههایی از متغیرهای همبسته مربوط به حوزه یا حوزه های مشترک استفاده می شوند برای مثال شاخصی های وضعیت اقتصادی اجتماعی، رضایت شغلی، سلامتی، خود بینی، نگرش های سیاسی یا ارزشهای خانواده.
PCA برای یافتن روش هایی از ترکیب متغیرها در یک تعداد کوچک از زیر مجموعه ها استفاده می شود در حالیکه تحلیل عاملی ممکن است برای تعیین ساختار اصلی چنین متغیرهایی و تخمین امتیاز برای اندازه گیری عاملهای پنهان آنها استفاده میشود.کاربردهای اصلی این روشها در تحلیل .....
لطفا در قسمت نظرات همین مطلب ادامه بحث را بر اساس تجربیات و دانسته های خود وارد کنید!!
داده های گمشده در نرم افزار R
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)
# select rows where v1 is 99 and recode column v1
mydata[mydata$v1==99,"v1"] <- NA
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2
mydata[!complete.cases(mydata),]
newdata <- na.omit(mydata)
آزمون t (تی) اﺳﺘﯿﻮدﻧﺖ
ﺗﻮزﯾﻊ تی در ﺳﺎل 1908 ﺑﻪ وﺳﯿﻠﻪ و.س. ﮔﻮﺳﺖ ﺑﺎ ﻧﺎم ﻣﺴﺘﻌﺎر (اﺳﺘﯿﻮدﻧﺖ) ﮔﺴﺘﺮش ﯾﺎﻓﺖ. ﺗﻮزﯾﻊ تی ﻏﺎﻟﺒﺎً ﺗﺤﺖ ﻋﻨﻮان ﺗﻮزﯾﻊ "اﺳﺘﯿﻮدﻧﺖ"ﻧﺎﻣﯿﺪه ﻣﯽ ﺷﻮد. اﯾﻦ آزﻣﻮن ﮐﺎرﺑﺮدﻫﺎي ﻣﺘﻔﺎوﺗﯽ در ﻣﻮرد آزﻣﻮن ﻓﺮﺿیه ﻫﺎي ﻣﺮﺑﻮط ﺑﻪ ﺟﺎﻣﻌﻪ آﻣﺎري دارد. در میان آزمون های تی پرکاربرد میتوان وارد زیر را نام برد:
1- آزمون میانگین یک نمونه ای: که در آن بررسی میشود آیا میانگین یک جامعه با توزیع نرمال، دارای یک مقدار (یا بازه ای از مقادیر) معلومی است که در فرضیه صفر تعیین میشود. همانطور که می دانیم یکی از موارد کاربرد این آزمون در تحلیل رگرسیون و برای بررسی ضرایب برآورد شده می باشد.
2- آزمون مکانی دو نمونه ای مستقل:از فرضیه صفر اینکه میانگین دو جامعه نرمال برابر هستند.
معمولا دو آزمون فوق، آزمون های تی استودنت نامیده می شوند، البته زمانیکه که در آزمون دوم واریانس جوامع نیز برابر باشد. در صورتی که این فرضیه یعنی برابر واریانس دو جامعه برقرار نباشد، آنگاه آزمون جدید به آزمون تی ولش ( که از رابطه واش-ساتروایت=Welch-Satterthwaite equation بدست می آید) معروف است. بعلاوه آزمون های تی استیودنت و ولش معمولا با نام آزمون های تی "نمونه های مستقل"یا "غیر زوجی"نیز شناخته می شوند.
بعلاوه توجه شود که آزمون مان-ویتنیمعادل غیر پارامتری آزمون تی مستقل است و برای مقایسهٔ دادههایی که از طرحهای گروههای مستقل به دست میآیند مورد استفاده قرار میگیرد.
3-آزمون مکانی دو نمونه ای وابسته(زوجی): آزمون فرضیه صفر اینکه اختلاف بین دو پاسخ ، مقدار میانگینی برابر صفر دارد در صورتی که پاسخ ها روی یک واحد آماری(یک آزمودنی) اندازه گیری شده اند. برای مثال، اندازه تومور یک مریض سرطانی قبل و بعد یک درمان اندازه گیری میشود. اگر تیمار نتیجه مؤثری داشته باشد، انتظار داریم که با درمان، اندازه تومور برای تعداد زیادی ار مریض ها کوچکتر شود. این آزمون اغلب به آزمون تی "زوجی"یا "اندازه های مکرر"معروف است.
توضیح بیشتر در مورد بند 3 به شرح ذیل ارائه می گردد:
در مقايسه دو تيمار، مطلوب آن است كه واحدهاي آزمايشي تا جايي كه ممكن است همگن باشند. به طوري كه اختلاف در پاسخ هاي بين دو گروه را بتوان به اختلاف دو تيمار نسبت داد . اگر بعضي شرايط قابل شناسايي كه مي توانند در پاسخ اثر كنند به طريقي كنترل نشده، مجاز به تغيير روي واحدها باشند ، آنگاه تغيير پذيري زيادي در اندازه ها به وجود مي آيد و مي توانند اختلافي واقعي در اثرهاي تيمارها را پنهان كنند . از طرف ديگر ، شرط همگني ممكن است روي تعداد آزمودني هاي موجود براي يك آزمايش مقايسه اي محدوديتي جدي را تحميل كند. براي فراهم كردن سازشي بين دو ضرورت مغاير همگني و تنوع واحدهاي آزمايشي مفهوم جور كردن با بلوك بندي موضوعي بنيادي است. اين شيوه شامل انتخاب واحدها در گروه ها يا بلوك هاست بطوريكه واحدهاي هر بلوك همگن بوده و واحدهاي بلوك هاي مختلف متفاوت باشند . به بعضي از واحدهاي درون هر بلوك تيمار 1 و به بقيه تيمار 2 تخصيص داده مي شود . اين روش كارايي مقايسه اي درون هر بلوك را حفظ مي كند و متفاوت بودن شرايط را در بلوك هاي مختلف نيز اجازه مي دهد. شكل ساده اي از بلوك بندي كه در آن هر بلوك شامل زوجي از واحدهاي آزمايشي مشابه است: يكي از آن ها تيمار 1 و ديگري تيمار 2. اين طرح نمونه گيري به وسيله زوج هاي جور شده يا مقايسه زوجي ناميده مي شود .
بعلاوه توجه شود که آزمون ویلکاکسن یک آزمون آماری ناپارامتری مباشد و برای مواردی که دو نمونه با هم مرتبط هستند یا اندازه گیری های تکراری روی یک نمونه انجام می پذیرد استفاده می گردد. این آزمون مشابه آزمون tزوجی می باشد زمانیکه نتوان توزیع نرمال را برای داده در نظر گرفت.
مشابه آزمون t، آزمون ویلکاکسن شامل اختلاف بین اندازه گیریها می شود، بنابراین این آزمون نیاز دارد که داده ها در سطح اندازه گیری فاصله ای باشند. از سوی دیگر این آزمون نیازی به پذیره های مربوط به توزیع اندازه ها ندارد(برای اطلاعات بیشتر به مرجع زیر مراجعه فرمائید:
Corder, G.W. & Foreman, D.I. (2009) Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach, New Jersey: Wiley.
الگوریتم تولید متغیر تصادفی با توزیع نرمال با استفاده از روش پذیرش-رد
قابل ذکر است که برای تولید توزیع نمایی با میانگین 1 (= نرخ 1) کافیست که منفی لگاریتم در مبنای نپر متغیر تصادفی یکنواخت را محاسبه نماییم که در الگوریتم ذکر این موضوع استفاده می گردد.
حال به ارائه الگوریتم با روش فوق می پردازیم که از روی آن به راحتی میتوان تولید عدد تصادفی را با نرم افزار مناسب نوشت:
فرض کنید X دارای توزیع نرمال با میانگین µ و وارانس σ2 باشد. لذا می توان نوشت X=σZ+µ که در آن Z دارای توزیع نرمال می باشد. بعلاوه فرض کنید Y دارای توزیع نمایی با نرخ یک و U دارای توزیع یکنواخت استاندارد در فاصله (1و0) می باشد. آنگاه الگوریتم را به صورت زیر داریم:
1- Y تولید کنید(اگر U متغیر تصادفی یکنواخت باشد از U تولید کنید آنگاه Y=- ln U).
2- U را تولید کنید.
3- اگر {U≤EXP {(Y2-1)/2 آنگاه قدرمطلق Z را برابر Y قرار دهید. در غیر اینصورت به مرحله 1 بر گردید.
4- U را تولید کنید اگر U≤0.5 آنگاه Z را برابر عدد مرحله 3 قرار دهید در غیر اینصورت منفی عدد مرحله 3 را برای Z در نظر بگیرید.
توجه شود که می توان الگوریتم فوق را به قالب دیگری نیز نوشت که تعداد مراحل را به 3 مورد کاهش دهد. برای این منظور رابطه 3 فوق را بررسی نمایید.
برای دریافت کد در نرم افزار R (و S-Plus ) تماس (ترجیحا ایمیل) حاصل شود. در این برنامه علاوه بر تولید عدد تصادفی با توزیع نرمال شامل خروجی آزمون های شاپیرو-ویلک و کلموگروف-اسمیرنوف و ترسیم نمودار پراکنش نیز میباشد.
برای تولید عدد تصادفی از توزیع گامانیز میتوان از این روش بهره جست. در این توزیع نزدیک، توزیع نمایی با میانگین برابر توزیع گاما می گیریم. در این حالت ثابت می شود که سوپریمم نسبت توزیع گاما به نمایی، همان مقدار میانگین می باشد. لذا الگوریتم را به سادگی می توان بنا نمود و کد برنامه را نوشت.( این برنامه نیز در R و نیز Splus تهیه و آزمون کلموگروف-اسمیرنوف در آن گنجانده شده است)
روابط بین توزیع های آماری
روابط بین توزیع های آماری به صورت همگرایی در توزیع را می توان از طرق مختلفی بدست آورد که دو روش متداول عبارتند است:
1- کنترل همگرایی تابع مولد گشتاور به تابع مولد گشتاور مورد نظر و استفاده از قضیه یکتایی تابع مولد گشتاورهای می باشد
2- کنترل همگرایی تابع توزیع ( یا در حالت گسسته کنترل تابع احتمال) می باشد.
برای این منظور می توان از نتایج قضیه حد مرکزی ( یا روش دلتا) در حالت یک متغیره و چند متغیره بهره جست که همگرایی در توزیع را برای میانگین (یا مجموع) متغیرهای تصادفی نتیجه می دهد.
یک شکل تقریبا کامل برای نمایش این روابط را می توان به صورت زیر نشان داد(صبر کنید تا عکس لود شود) توجه شود که در این شکل روابط قطعی (غیر مجانبی) نیز بین توزیع های آماری نشان داده شده است به عنوان مثال
1- مجموع متغیرهای تصادفی پواسن، نرمال، هندسی و برنولی
2- حاصلضرب متغیرهای لگ نرمال
3- می نی مم متغیرهای هندسی و نمایی
4- حالت های خاص توزیع گاما (نمایی و دو جمله ای)
5- نسبت متغیرهای تصادفی مستقل و چند مورد دیگر.

برای دریافت اثبات کلیه روابط بین توزیع ها که در دیاگرام فوق نشان داده شده است تماس (ترجیحا ایمیل) برقرار نمایید.