spss statistical

profilegreatrn
5.Sgnificanceeffectsizeandpower.pptx

Statistical significance

significance’ can be used only once the differences have been subjected to rigorous statistical testing. In short, statistical significance examines the likelihood that an outcome happened by chance. It is measured from 0% (it could not have happened by chance) to 100% (it must have happened by chance)

A prediction about some kind of outcome – we call this prediction a ‘hypothesis’.

دلالة إحصائية

يمكن استخدام الدلالة فقط بمجرد أن تخضع الاختلافات لاختبارات إحصائية صارمة. باختصار ، تفحص الدلالة الإحصائية احتمالية حدوث نتيجة بالصدفة. يقاس من 0٪ (لا يمكن أن يحدث بالصدفة) إلى 100٪ (لابد أنه حدث بالصدفة) توقع حول نوع ما من النتائج - نطلق على هذا التوقع "فرضية".

2

An ‘experimental hypothesis’ may predict that observed differences in an outcome between groups of people was due to the factor that we are examining (we usually call this the alternative hypothesis, for reasons that will become clearer later). In contrast, the ‘null hypothesis’ states that there are no differences, or that observed differences were due to chance (and not because of the factors being measured).

Statistical significance

قد تتنبأ "فرضية تجريبية" بأن الاختلافات الملحوظة في النتيجة بين مجموعات من الناس كانت بسبب العامل الذي نقوم بفحصه (عادة ما نطلق على هذا الفرضية البديلة ، لأسباب ستتضح لاحقًا). في المقابل ، تنص "الفرضية الصفرية" على عدم وجود اختلافات ، أو أن الاختلافات الملحوظة كانت بسبب الصدفة (وليس بسبب العوامل التي يتم قياسها).

3

We usually say that an outcome is ‘statistically significant’ if there is a less than 5% probability that it happened by chance or (more precisely) that there is a less than 5% probability that the null hypothesis is true. If that chance likelihood is less than 5%, we report that in terms of probability (p). We say that an outcome is (statistically) significant if ‘p’ is less than 0.05 (which is 5% written as a decimal); we usually report that p < .05.

Now imagine we observed that women scored significantly poorer mood scores than men (p 6.05). This suggests that there is a less than 5% probability the observed difference in mood scores between men and women happened by chance.

Statistical significance

نقول عادة أن النتيجة "ذات دلالة إحصائية" إذا كان هناك احتمال أقل من 5٪ بحدوثها بالصدفة أو (بشكل أكثر دقة) أن هناك احتمال أقل من 5٪ أن الفرضية الصفرية صحيحة. إذا كانت احتمالية هذه الفرصة أقل من 5٪ ، فإننا نبلغ ذلك من حيث الاحتمال (p). نقول أن النتيجة مهمة (إحصائيًا) إذا كانت "p" أقل من 0.05 (وهي 5٪ مكتوبة على هيئة عدد عشري) ؛ نحن عادة نبلغ أن p <.05.

تخيل الآن أننا لاحظنا أن النساء سجلن درجات مزاجية أقل بكثير من الرجال (ص 6.05). يشير هذا إلى أن هناك احتمال أقل من 5٪ أن الاختلاف الملحوظ في درجات الحالة المزاجية بين الرجال والنساء حدث بالصدفة.

4

Significance and hypotheses

Before we start, it might help if we define some of the key terms that we use when testing hypotheses.

قبل أن نبدأ ، قد يكون من المفيد تحديد بعض المصطلحات الأساسية التي نستخدمها عند اختبار الفرضيات.

5

Null hypothesis vs. the alternative hypothesis

Each questionnaire is assessed by scoring the answers, where a higher score indicates poorer mood. Based on previous evidence, we might predict that women will report poorer mood scores than men . That prediction would be our (alternative) hypothesis. By contrast, the null hypothesis would be that there will be no difference in mood scores between men and women.

To test our prediction, we must investigate whether we can reject the null hypothesis (or not) before we can say anything about the alternative hypothesis.

يتم تقييم كل استبيان من خلال تسجيل الإجابات ، حيث تشير الدرجة الأعلى إلى حالة مزاجية سيئة. استنادًا إلى الأدلة السابقة ، قد نتوقع أن النساء سيعلنن عن درجات مزاجية أسوأ من الرجال. سيكون هذا التنبؤ هو فرضيتنا (البديل). على النقيض من ذلك ، فإن الفرضية الصفرية هي أنه لن يكون هناك اختلاف في درجات الحالة المزاجية بين الرجال والنساء. لاختبار تنبؤنا ، يجب أن نتحرى ما إذا كان بإمكاننا رفض الفرضية الصفرية (أم لا) قبل أن نتمكن من قول أي شيء عن الفرضية البديلة.

اختبار تنبؤنا ، يجب أن نتحرى ما إذا كان بإمكاننا رفض الفرضية الصفرية (أم لا) قبل أن نتمكن من قول أي شيء عن الفرضية البديلة.

6

By stating that there is less than 5% probability that an outcome occurred by chance, we are actually saying that there is a less than 5% probability that the null hypothesis is ‘true’ (that there is no difference).

Once we have collected the data, we might observe that women have indeed reported higher mood scores than men.

Statistical analyses might show that there is a 3% probability that the outcome occurred by chance. Because this is lower than the 5% cut-off point that we usually set for significance, it would appear that our prediction is correct. the process of testing hypothesis testing must start with the null hypothesis.

Null hypothesis vs. the alternative hypothesis

بالقول إن هناك احتمالًا أقل من 5٪ لحدوث نتيجة بالصدفة ، فإننا نقول في الواقع أن هناك احتمالًا أقل من 5٪ بأن الفرضية الصفرية "صحيحة" (أنه لا يوجد فرق). بمجرد جمع البيانات ، قد نلاحظ أن النساء قد أبلغن بالفعل عن درجات مزاجية أعلى من الرجال. قد تظهر التحليلات الإحصائية أن هناك احتمال 3٪ أن النتيجة حدثت بالصدفة. نظرًا لأن هذا أقل من الحد الفاصل البالغ 5٪ الذي حددناه عادةً للأهمية ، فقد يبدو أن تنبؤنا صحيح. يجب أن تبدأ عملية اختبار الفرضية بالفرضية الصفرية.

7

According to our results here, we can reject the null hypothesis because there is not enough evidence to support that it is true (because the outcome was significant at p = .03). As a result, we can say that the null hypothesis is rejected in favour of the alternative hypothesis. Strictly speaking, we cannot say that we have ‘accepted the alternative hypothesis’

Null hypothesis vs. the alternative hypothesis

وفقًا لنتائجنا هنا ، يمكننا رفض الفرضية الصفرية لأنه لا يوجد دليل كافٍ لدعم صحة هذه الفرضية (لأن النتيجة كانت مهمة عند p = .03). نتيجة لذلك ، يمكننا القول أن الفرضية الصفرية مرفوضة لصالح الفرضية البديلة. بالمعنى الدقيق للكلمة ، لا يمكننا القول أننا "قبلنا الفرضية البديلة"

8

Similarly, we might still find that women reported higher mood scores than men, but statistical analyses suggest that there is a 6% probability that the outcome occurred by chance (where p = .06, or p <.05). Because this is greater than the 5% cut-off point, we cannot reject the null hypothesis. This does not mean that the null hypothesis is true, but simply that there is not evidence that it is a false.

Once again, strictly speaking, we should not say that the alternative hypothesis is rejected (although, again, many researchers do say that), we should always phrase the outcome in terms of the null hypothesis.

Null hypothesis vs. the alternative hypothesis

وبالمثل ، ربما لا نزال نجد أن النساء أبلغن عن درجات مزاجية أعلى من الرجال ، لكن التحليلات الإحصائية تشير إلى أن هناك احتمالًا بنسبة 6٪ أن النتيجة حدثت بالصدفة (حيث p = .06 ، أو p <.05). نظرًا لأن هذا أكبر من نقطة الفصل البالغة 5٪ ، فلا يمكننا رفض الفرضية الصفرية. هذا لا يعني أن الفرضية الصفرية صحيحة ، ولكن ببساطة لا يوجد دليل على أنها خاطئة. مرة أخرى ، بالمعنى الدقيق للكلمة ، لا ينبغي أن نقول إن الفرضية البديلة مرفوضة (على الرغم من أن العديد من الباحثين يقولون ذلك مرة أخرى) ، يجب دائمًا صياغة النتيجة من حيث الفرضية الصفرية.

9

One-tailed vs. two-tailed hypotheses

The first statement is an example of a one-tailed hypothesis – a specific, directional prediction . In another research study, we might predict that patients' anxiety scores will improve after undergoing cognitive therapy.

In contrast, a two-tailed hypothesis is a general, non-directional prediction . For example, we might speculate that anxiety scores will be different before and after cognitive therapy.

لبيان الأول هو مثال على فرضية أحادية الطرف - تنبؤ اتجاهي محدد. في دراسة بحثية أخرى ، قد نتوقع أن تتحسن درجات قلق المرضى بعد الخضوع للعلاج المعرفي. في المقابل ، الفرضية ثنائية الذيل هي تنبؤ عام غير اتجاهي. على سبيل المثال ، قد نتوقع أن درجات القلق ستكون مختلفة قبل العلاج المعرفي وبعده.

10

Significance with one-tailed tests

When we test hypotheses we will (usually) set the significance level at 5%. If we employ a one tailed test, we are predicting that our ‘outcome’ will reside in the outer 5% of one end of the sampling distribution.

If we predict that A will be greater than B, we would expect to find the outcome in the upper 5% of the sampling distribution (see Figure 4.2).

عندما نختبر الفرضيات سنقوم (عادة) بتعيين مستوى الأهمية عند 5٪. إذا استخدمنا اختبارًا ذي طرف واحد ، فإننا نتوقع أن تكون "نتائجنا" موجودة في 5٪ الخارجية من أحد طرفي توزيع العينات. إذا توقعنا أن يكون A أكبر من B ، فإننا نتوقع أن نجد النتيجة في أعلى 5٪ من توزيع العينات (انظر الشكل 4.2).

11

If we find that women do report higher mood scores than men and statistical analyses indicate that there is a less than 5% probability that this happened by chance, we can reject the null hypothesis (in favour of the alternative hypothesis). If men score more highly than women (even if there is a less than 5% probability that this occurred by chance), we cannot reject the null hypothesis (because the outcome contradicts our prediction).

Significance with one-tailed tests

ذا وجدنا أن النساء يبلغن عن درجات مزاجية أعلى من الرجال وتشير التحليلات الإحصائية إلى أن هناك احتمالًا أقل من 5٪ بحدوث ذلك عن طريق الصدفة ، يمكننا رفض الفرضية الصفرية (لصالح الفرضية البديلة). إذا حصل الرجال على درجات أعلى من النساء (حتى لو كان هناك احتمال أقل من 5٪ لحدوث ذلك بالصدفة) ، فلا يمكننا رفض فرضية العدم (لأن النتيجة تتعارض مع توقعاتنا).

12

Significance with one-tailed tests

However, if we predict that X will be less than Y, we would expect to find the outcome in the lower 5% of the sampling distribution (as shown in Figure 4.3).

For example, we might predict that IQ scores of cats might be less than for dogs. If we find that cats present lower IQ scores than dogs, and statistical analyses indicate that there is a less than 5% probability that this happened by chance, we can reject the null hypothesis.

ومع ذلك ، إذا توقعنا أن تكون X أقل من Y ، فإننا نتوقع أن نجد النتيجة في أقل 5٪ من توزيع العينات (كما هو موضح في الشكل 4.3). على سبيل المثال ، قد نتوقع أن درجات ذكاء القطط قد تكون أقل من الكلاب. إذا وجدنا أن القطط تقدم درجات ذكاء أقل من الكلاب ، وتشير التحليلات الإحصائية إلى أن هناك احتمالًا أقل من 5٪ لحدوث ذلك عن طريق الصدفة ، يمكننا رفض فرضية العدم

13

Significance with two-tailed tests

Sometimes, we may not have enough evidence to make a specific prediction . However, we might be able to suggest that there will be a difference, without specifying the direction of that difference.

For example, we could predict that there will be a difference in the hours spent in lectures across the student groups, but not predict which group will spend more time in lectures than the other. In this instance, we have made a two-tailed hypothesis.

في بعض الأحيان ، قد لا يكون لدينا أدلة كافية لعمل تنبؤ محدد. ومع ذلك ، قد نكون قادرين على اقتراح أنه سيكون هناك اختلاف ، دون تحديد اتجاه هذا الاختلاف. على سبيل المثال ، يمكننا أن نتنبأ بأنه سيكون هناك اختلاف في الساعات التي يقضيها الطلاب في المحاضرات عبر مجموعات الطلاب ، ولكن لا نتوقع المجموعة التي ستقضي وقتًا أطول في المحاضرات أكثر من الأخرى. في هذه الحالة ، قمنا بعمل فرضية ثنائية الذيل.

14

In a non-directional test, we still (usually) set the significance level at 5%, but we have to share that between the two tails of the distribution because the difference could reside at either end. Our significance level at either end is now 2.5%, as shown in Figure 4.4.

If we find that there is a difference between the groups in respect of hours spent in lectures, and statistical analyses indicate that there is a less than 2.5% probability that this happened by chance, we can reject the null hypothesis.

Significance with two-tailed tests

في الاختبار غير الاتجاهي ، ما زلنا (عادةً) نضبط مستوى الأهمية عند 5٪ ، لكن يتعين علينا مشاركة ذلك بين طرفي التوزيع لأن الاختلاف يمكن أن يكمن في أي من الطرفين. يبلغ مستوى الأهمية لدينا الآن 2.5٪ ، كما هو موضح في الشكل 4.4. إذا وجدنا أن هناك فرقًا بين المجموعات فيما يتعلق بالساعات التي تقضيها المحاضرات ، وتشير التحليلات الإحصائية إلى أن هناك احتمالًا أقل من 2.5٪ لحدوث ذلك بالصدفة ، فيمكننا رفض فرضية العدم.

15

Errors in hypothesis testing

A Type I error occurs when we incorrectly reject the null hypothesis in favour of the alternative hypothesis.

A Type II error occurs when we do not reject the null hypothesis when we should have done so.

يحدث خطأ من النوع الأول عندما نرفض بشكل غير صحيح الفرضية الصفرية لصالح الفرضية البديلة. يحدث خطأ من النوع الثاني عندما لا نرفض الفرضية الصفرية عندما كان يجب علينا فعل ذلك.

16

Measuring statistical significance

As a rule, significance calculations will be based on one or more of three key determinants: variance, standard deviation and standard error. Parametric tests base outcomes on mean scores; significance often focuses on how mean scores differ between groups or across conditions.

Significance in non-parametric studies is more likely to focus on median scores and on how ranked scores differ between groups or across conditions.

Significance is established by whether the observed outcome exceeds cut-off points within the known distribution.

Those cut-off points vary according to sample size, the level of significance being set (usually p = .05) and, for some tests, whether we are employing a one-tailed or two-tailed test.

كقاعدة عامة ، ستعتمد حسابات الأهمية على واحد أو أكثر من ثلاثة محددات رئيسية: التباين والانحراف المعياري والخطأ المعياري. تعتمد الاختبارات البارامترية على النتائج المتوسطة ؛ غالبًا ما تركز الأهمية على كيفية اختلاف متوسط ​​الدرجات بين المجموعات أو عبر الظروف. من المرجح أن تركز الأهمية في الدراسات غير المعلمية على الدرجات المتوسطة وعلى كيفية اختلاف الدرجات المرتبة بين المجموعات أو عبر الظروف. يتم تحديد الأهمية من خلال ما إذا كانت النتيجة المرصودة تتجاوز نقاط التوقف ضمن التوزيع المعروف. تختلف نقاط القطع هذه وفقًا لحجم العينة ، ومستوى الأهمية الذي يتم تعيينه (عادةً p = .05) ، وبالنسبة لبعض الاختبارات ، سواء كنا نستخدم اختبارًا أحادي الطرف أو ثنائي الطرف.

17

Variance (s2) is demonstrated by the extent that scores vary around the mean score.

Standard deviation (s) is the average variation in that sample. As we saw just now, all values in a distribution will vary from the mean score, being either higher or lower. To get the standard deviation, we simply find the square root of the variance.

standard error (s) is an estimation of standard deviation in the entire population. When. The standard deviation of the sampling distribution is called the standard error of the mean

Measuring statistical significance

يتم توضيح التباين (s2) من خلال مدى اختلاف الدرجات حول متوسط ​​الدرجة. الانحراف المعياري هو متوسط ​​التباين في تلك العينة. كما رأينا الآن ، ستختلف جميع القيم في التوزيع عن متوسط ​​الدرجة ، إما أعلى أو أقل. للحصول على الانحراف المعياري ، نجد ببساطة الجذر التربيعي للتباين. الخطأ (الأخطاء) المعياري هو تقدير للانحراف المعياري في المجتمع بأكمله. متى. يسمى الانحراف المعياري لتوزيع العينات الخطأ المعياري للمتوسط

18

Confidence intervals

Usually, we describe these parameters in terms of 95% confidence intervals, where we have set significance as p 6.05. The values within this range represent an estimation of scores within a distribution, excluding the extreme scores.

Confidence intervals have an upper and lower boundary, beyond which we find the outer 5% of the distribution (represented by lower and upper 2.5% tails).

عادة ، نصف هذه المعلمات من حيث فترات الثقة 95٪ ، حيث حددنا الأهمية كـ p 6.05. تمثل القيم ضمن هذا النطاق تقديرًا للدرجات داخل التوزيع ، باستثناء الدرجات القصوى. فترات الثقة لها حد علوي وسفلي ، وبعد ذلك نجد 5٪ الخارجية للتوزيع (ممثلة بذيول أدنى وأعلى 2.5٪).

19

Confidence intervals

Effect size indicates the actual magnitude of the difference between scores, without considering how that relates to an overall population.

Once we have collected the data we might find that the new drug produces significantly better outcomes than the old one (p<.001). However, now let's say that we conducted this trial with 2,000 patients to find that effect. On closer inspection, we see that the improvement represents 1% change on illness rating scores.

The difference may be statistically significant, but it is hardly clinically relevant given the small change (especially as there may be side effects).

Effect size

يشير حجم التأثير إلى الحجم الفعلي للفرق بين الدرجات ، دون النظر في كيفية ارتباط ذلك بإجمالي عدد السكان. بمجرد أن نجمع البيانات ، قد نجد أن الدواء الجديد ينتج نتائج أفضل بكثير من الدواء القديم (p <.001). ومع ذلك ، لنفترض الآن أننا أجرينا هذه التجربة مع 2000 مريض لإيجاد هذا التأثير. عند الفحص الدقيق ، نرى أن التحسن يمثل تغييرًا بنسبة 1٪ في درجات تصنيف المرض. قد يكون الاختلاف ذا دلالة إحصائية ، لكنه ليس ذا صلة إكلينيكيًا نظرًا للتغير الصغير (خاصةً أنه قد تكون هناك آثار جانبية).

21

Measuring effect size

There are several ways to measure effect size, but the most commonly used are Pearson‘s r and Cohen‘s d. Pearson‘s effect size focuses on associations between samples and is often used in correlation . Cohen's methods explore effect size by examining differences relative to sample sizes and pooled standard deviation

iناك عدة طرق لقياس حجم التأثير ، ولكن الأكثر شيوعًا هي طريقة Pearson و Cohen's d. يركز حجم تأثير بيرسون على الارتباطات بين العينات وغالبًا ما يستخدم في الارتباط. تستكشف طرق كوهين حجم التأثير من خلال فحص الاختلافات المتعلقة بأحجام العينة والانحراف المعياري المجمع

22

Statistical power

statistical power, which measures the probability of correctly rejecting the null hypothesis.

You may also have asked yourself (or more likely your statistics tutor) about how many participants will be needed in a study. These questions can be answered using power calculations. There are four factors in a power calculation: the effect size (which we have just seen); the probability or significance level (also known as a, usually set at .05); the statistical power; and the number of participants that need to be recruited to achieve that effect size and power.

Earlier we said that a Type II error occurs when we incorrectly fail to reject the null hypothesis. Cohen (1992) said that we should avoid getting Type II errors too often. He said that we should aim to correctly reject the null hypothesis on at least 80% of occasions.

لقدرة الإحصائية ، والتي تقيس احتمال رفض الفرضية الصفرية بشكل صحيح.

ربما تكون قد سألت نفسك أيضًا (أو على الأرجح مدرس الإحصاء الخاص بك) عن عدد المشاركين الذين ستكون هناك حاجة إليهم في الدراسة. يمكن الإجابة على هذه الأسئلة باستخدام حسابات القوة. هناك أربعة عوامل في حساب القوة: حجم التأثير (الذي رأيناه للتو) ؛ مستوى الاحتمالية أو الأهمية (المعروف أيضًا باسم

قلنا سابقًا أن خطأ من النوع الثاني يحدث عندما نفشل بشكل غير صحيح في رفض الفرضية الصفرية. قال كوهين (1992) إنه يجب علينا تجنب أخطاء النوع الثاني كثيرًا. قال إنه يجب أن نهدف بشكل صحيح إلى رفض فرضية العدم في 80٪ على الأقل من المناسبات.a ، يتم تعيينه عادةً عند .05) ؛ القوة الإحصائية. وعدد المشاركين الذين يحتاجون إلى توظيفهم لتحقيق هذا التأثير بالحجم والقوة.

23

Measuring effect size and power using G*Power

G*Power is an extremely useful program that enables you to calculate outcomes in a power analysis. Typically, we would use this software to do one of two things (although it will do other stuff, too). We can calculate (or have G*Power calculate it) the statistical power of a completed study, since we know the effect size, the sample size and the significance level.

We can also estimate the number of participants we need to recruit for a study, assuming that we are aiming for a power of 0.80, and based on an estimate of the expected effect size, and the level of significance that we have decided to set.

latest version of this program is G*Power 3.1.3 at www.psycho.uni duesseldorf.de/ abteilungen / aap /gpower3/.

G * Power هو برنامج مفيد للغاية يمكّنك من حساب النتائج في تحليل القوة. عادةً ما نستخدم هذا البرنامج للقيام بأحد شيئين (على الرغم من أنه سيفعل أشياء أخرى أيضًا). يمكننا حساب (أو جعل G * Power تحسبها) القوة الإحصائية لدراسة مكتملة ، لأننا نعرف حجم التأثير وحجم العينة ومستوى الأهمية. يمكننا أيضًا تقدير عدد المشاركين الذين نحتاج إلى تجنيدهم لدراسة ، بافتراض أننا نهدف إلى الحصول على قوة قدرها 0.80 ، وبناءً على تقدير حجم التأثير المتوقع ، ومستوى الأهمية الذي قررنا تعيينه.

G * Pow

24

Using G*Power to examine power of a completed study

we will demonstrate how we can calculate the achieved statistical power, based on outcomes from a completed study.

سنوضح كيف يمكننا حساب القوة الإحصائية المحققة ، بناءً على نتائج دراسة مكتملة.

25

We will illustrate this with the mood scores data that we explored in respect of gender when we were learning about significance testing. This is an example of a between-group analysis. Assuming that the data are appropriate, we would probably explore these outcomes formally using an independent t-test.

Now we enter the outcome data into the Input Parameters:

Using G*Power to examine power of a completed study

سوف نوضح ذلك ببيانات درجات الحالة المزاجية التي استكشفناها فيما يتعلق بالجنس عندما كنا نتعلم عن اختبار الأهمية. هذا مثال على التحليل بين المجموعات. بافتراض أن البيانات مناسبة ، من المحتمل أن نستكشف هذه النتائج رسميًا باستخدام اختبار t مستقل.

26

Using G*Power to examine power of a completed study

Using G*Power to estimate sample size for a future study

G*Power can be used to calculate how many participants we should recruit to achieve a power of 0.80, where significance is p = .05.

يمكن استخدام G * Power لحساب عدد المشاركين الذين يجب علينا تجنيدهم لتحقيق قوة مقدارها 0.80 ، حيث تكون الأهمية p = .05.

28

If you need to write a statement of power calculation (for a project proposal, for instance), you would write something like this: We need to recruit at least 102 participants to a medium effect of 0.565, using a significance level of 0.05 and a power of 0.8 to detect that effect.

إذا كنت بحاجة إلى كتابة بيان حساب القوة (لمقترح مشروع ، على سبيل المثال) ، فاكتب شيئًا كالتالي: نحتاج إلى تجنيد 102 مشاركًا على الأقل لتأثير متوسط ​​قدره 0.565 ، باستخدام مستوى أهمية 0.05 و a قوة 0.8 لاكتشاف هذا التأثير.

29

Mayers, A. (2013). Introduction to statistics and SPSS in psychology. Harlow: Pearson.

Reference