Wednesday 2 August 2017

5 7 Padrão Teste Prep Scatter Plots And Trend Lines Forex


A vida real é bagunçada, portanto, espera-se que as medidas retiradas da vida real também sejam bagunçadas. Quando você grafica as medidas da vida real, espera-se que os pontos não se alinhem exatamente em uma linha agradável e limpa, mas que, em vez disso, formará uma dispersão de pontos que, na melhor das hipóteses, podem sugerir uma linha legal agradável. Esses pontos são chamados de diagrama de dispersão. Crie um diagrama de dispersão a partir dos seguintes dados: (1, 49), (3, 51), (4, 52), (6, 52), (6, 53), (7, 53), (8, 54), (11, 56), (12, 56), (14, 57), (14, 58), (17, 59), (18, 59), (20, 60), (20, 61). Um dos As primeiras coisas que tenho a fazer ao representar esses pontos é descobrir quais serão os meus valores da escala do eixo. Se eu tentar fazer um sistema de eixos com o quotstandardquot ndash10 a 10 valores, nenhum dos pontos acima aparecerá mesmo em meu gráfico. Como é comum com esses tipos de conjuntos de dados, todos os valores x e y são positivos, então eu realmente preciso de escalas para o primeiro quadrante. Os valores de y são muito maiores do que os valores de x, mas em vez de espremem todos os valores de y juntos, eu os espalhei (para que eu possa vê-los melhor) usando uma escala interrompida. O pequeno quickicky-bobquot no fundo do meu y - axis acima mostra que Ive pulou alguns dos valores da escala. Por alguma razão, esta notação de eixo quebrado parece quase nunca ser ensinada nas escolas, embora seja muito comum em quot o mundo real. Se você ler revistas financeiras, é muito provável que você veja muitos gráficos com este tipo de notação de eixo. Se você usa esta notação em sua lição de casa, não se surpreenda se você tiver que explicar isso ao seu instrutor. Provavelmente você deverá fazer seus pontos de dispersão em sua calculadora gráfica. Minha calculadora me dá essa imagem: cópia de direitos autorais Elizabeth Stapel 2005-2011 Todos os direitos reservados Muitas vezes você precisará ajustar suas configurações de WINDOW para que todos os seus pontos de dados apareçam na tela. Eu usei configurações de janela de 0 lt X lt 25 com uma escala X de 5 e 45 lt Y lt 65 com uma escala Y de 5 para o gráfico acima. Quando você for feito com o diagrama de dispersão, não se esqueça de girar o quotão de STATPLOT, ou os parâmetros para o gráfico de estatísticas podem mexer com o seu utilitário gráfico padrão. Eu vou lhe dar um aviso justo agora: tornou-se moda inserir o tópico de diagramas de dispersão e regressões em álgebra e outras classes não estatísticas e exigir que os alunos usem uma calculadora gráfica para responder perguntas. Embora eles possam dar-lhe a fórmula de declive e a fórmula quadrática e todas as outras coisas no teste (mesmo que você deveria ter memorizado), eles NÃO lhe darão ajuda com sua calculadora. Muitas vezes, eles não parecem se importar se você aprendeu a matemática, mas você sabia que conhecia sua calculadora. Então, retire o manual do proprietário ou vá ao site do fabricante, ou pesquise on-line, ou se junte com um amigo AGORA, porque Se você estiver fazendo essas coisas na aula, você vai ter que saber, e conhecê-lo bem, no teste. Cite este artigo como: Stapel, Elizabeth. QuotScatterplots e Regressions. quot Purplemath. Disponível a partir de purplemathmodulesscattreg. htm. Data Acessada Mês 2016Handbook of Biological Statistics Correlação e regressão linear Gráfico do número de ovos versus peso seco no anfípodo Platorchestia platensis. Há três coisas que você pode fazer com esse tipo de dados. Um é um teste de hipótese, para ver se há uma associação entre as duas variáveis ​​em outras palavras, à medida que a variável X sobe, a variável Y tende a mudar (para cima ou para baixo). Para os dados do exercício, você quer saber se a taxa de pulso foi significativamente maior com velocidades mais altas. O valor de P é 1,3 x 10 menos 8. Mas o relacionamento é tão óbvio a partir do gráfico e, portanto, biologicamente não surpreendente (claro que minha taxa de pulso aumenta quando eu me exercito mais), que o teste de hipóteses não seria uma parte muito interessante da análise. Para os dados dos anfípodes, você gostaria de saber se as fêmeas maiores tinham mais ovos ou menos ovos que os anfípodes menores, o que não é biologicamente óbvio nem é óbvio no gráfico. Pode parecer uma dispersão aleatória de pontos, mas existe uma relação significativa (P 0.015). O segundo objetivo é descrever quão rigorosas as duas variáveis ​​estão associadas. Isso geralmente é expresso com r. Que varia de menos1 a 1 ou r 2. que varia de 0 a 1. Para os dados do exercício, há um relacionamento muito apertado, como mostrado pelo r 2 de 0.98, isso significa que, se você conhecesse minha velocidade na máquina elíptica, Você poderia prever meu pulso com bastante precisão. O r 2 para os dados de anfípodes é muito menor, em 0.21 isso significa que, embora haja uma relação significativa entre o peso feminino e o número de ovos, saber que o peso de uma fêmea não permitiria que você preveisse o número de ovos que ela tinha com muito precisão. O objetivo final é determinar a equação de uma linha que atravessa a nuvem de pontos. A equação de uma linha é dada na forma Y 770 abX. Onde Y 770 é o valor de Y previsto para um dado valor de X. A é a intercepção Y (o valor de Y quando X é zero) e b é a inclinação da linha (a alteração em Y 770 para uma alteração em X de uma unidade). Para os dados do exercício, a equação é Y 77063.53.75 X, isto prevê que meu pulso seria de 63,5 quando a velocidade da máquina elíptica é de 0 km / h e meu pulso aumentaria em 3,75 batimentos por minuto por cada aumento de velocidade de 1 km / h . Esta é provavelmente a parte mais útil da análise para os dados do exercício, se eu quisesse exercer com um determinado nível de esforço, conforme medido pela taxa de pulso, eu poderia usar a equação para prever a velocidade que eu deveria usar. Para os dados anfípodes, a equação é Y 77012.71.60 X. Para a maioria dos propósitos, só saber que os anfípodes maiores têm significativamente mais ovos (o teste de hipóteses) seria mais interessante do que saber a equação da linha, mas depende dos objetivos de sua experiência. Quando usá-los Use a correlação linear de correlação quando tiver duas variáveis ​​de medição. Tais como ingestão de alimentos e peso, dosagem de drogas e pressão sanguínea, temperatura do ar e taxa metabólica, etc. Também existe uma variável nominal que mantém as duas medidas juntas em pares, como o nome de um organismo individual, experimento experimental ou local. Não estou ciente de que qualquer outra pessoa considere que esta variável nominal seja parte da correlação e regressão, e não é algo que você precisa saber o valor do problema. Pode indicar que uma medida de ingestão de alimentos e medição de peso veio do mesmo rato colocando ambos os números no Mesma linha, sem nunca dar o nome ao rato. Por essa razão, eu chamo isso de uma variável nominal oculta. O principal valor da variável nominal oculta é que ele me permite fazer a declaração do cobertor que qualquer vez que você tenha duas ou mais medidas de um único indivíduo (organismo, experimento experimental, localização, etc.), a identidade desse indivíduo é um valor nominal Variável se você tiver apenas uma medida de um indivíduo, o indivíduo não é uma variável nominal. Eu acho que esta regra ajuda a esclarecer a diferença entre one-way, two-way e anova anova. Se a idéia de variáveis ​​nominais ocultas na regressão o confundir, você pode ignorá-la. Existem três objetivos principais para correlação e regressão na biologia. Uma é verificar se duas variáveis ​​de medição estão associadas entre si, conforme uma variável aumenta, a outra tende a aumentar (ou a diminuir). Você resume este teste de associação com o valor de P. Em alguns casos, isso aborda uma questão biológica sobre relações causa-e-efeito, uma associação significativa significa que diferentes valores da variável independente causam diferentes valores do dependente. Um exemplo seria dar às pessoas quantidades diferentes de uma droga e medir a pressão arterial. A hipótese nula seria que não havia relação entre a quantidade de fármaco e a pressão arterial. Se você rejeitar a hipótese nula, você conclui que a quantidade de fármaco causa alterações na pressão sanguínea. Neste tipo de experiência, você determina os valores da variável independente, por exemplo, você decide qual a dose do medicamento que cada pessoa recebe. O exercício e os dados de pulso são um exemplo disso, conforme determinei a velocidade na máquina elíptica, depois mediei o efeito sobre a freqüência do pulso. Em outros casos, você quer saber se duas variáveis ​​estão associadas, sem necessariamente inferir uma relação de causa e efeito. Nesse caso, você não determina qualquer variável antes do tempo, ambos são naturalmente variáveis ​​e você os mede. Se você encontrar uma associação, você inferiu que a variação em X pode causar variação em Y. Ou a variação em Y pode causar variação em X. Ou variação em algum outro fator pode afetar Y e X. Um exemplo seria medir a quantidade de uma proteína particular na superfície de algumas células e o pH do citoplasma dessas células. Se a quantidade de proteína e o pH estiverem correlacionados, pode ser que a quantidade de proteína afeta o pH interno ou o pH interno afeta a quantidade de proteína ou algum outro fator, como a concentração de oxigênio, afeta a concentração de proteína e o pH. Muitas vezes, uma correlação significativa sugere experiências adicionais para testar uma relação de causa e efeito se a concentração de proteína e o pH estiverem correlacionados, você pode querer manipular a concentração de proteína e ver o que acontece com o pH, ou manipular o pH e medir a proteína, ou manipular o oxigênio e ver O que acontece com ambos. Os dados dos anfípodes são outro exemplo disto, podendo ser que o maior motivo é que os anfípodes tenham mais ovos, ou que ter mais ovos torna as mães maiores (talvez comam mais quando eles estão carregando mais ovos) ou algum terceiro fator ) Faz com que os anfípodes sejam maiores e tenham mais ovos. O segundo objetivo de correlação e regressão é estimar a força da relação entre duas variáveis ​​em outras palavras, quão próximo os pontos do gráfico são para a linha de regressão. Você resume isso com o valor r 2. Por exemplo, dizemos que você mediu a temperatura do ar (variando de 15 a 30degC) e a velocidade de corrida no lagarto Agama Savignyi. E você encontra um relacionamento significativo: os lagartos mais quentes correm mais rápido. Você também quer saber se há um relacionamento apertado (alto r 2), o que lhe dirá que a temperatura do ar é o principal fator que afeta a velocidade de rotação se o r 2 for baixo, ele diria que outros fatores além da temperatura do ar também são Importante, e você pode querer fazer mais experimentos para procurá-los. Você também pode querer saber como o r 2 para Agama savignyi comparado com o de outras espécies de lagartos ou Agama Savignyi sob diferentes condições. O terceiro objetivo da correlação e regressão é encontrar a equação de uma linha que se encaixa na nuvem de pontos. Você pode usar esta equação para a previsão. Por exemplo, se você deu dietas de voluntários com 500 a 2500 mg de sal por dia e depois mediu a pressão arterial, você poderia usar a linha de regressão para estimar o quanto uma pressão arterial de pessoas iria descer se comessem 500 mg menos de sal por dia. Correlação versus regressão linear As ferramentas estatísticas utilizadas para o teste de hipóteses, descrevendo a proximidade da associação e desenhando uma linha através dos pontos, são correlação e regressão linear. Infelizmente, acho que as descrições de correlação e regressão na maioria dos livros didáticos são desnecessariamente confusas. Alguns livros de texto de estatísticas têm correlação e regressão linear em capítulos separados, e fazem parecer que é sempre importante escolher uma técnica ou outra. Eu acho que isso enfatiza demais as diferenças entre eles. Outros livros confundem correlação e regressão sem realmente explicar qual é a diferença. Existem diferenças reais entre correlação e regressão linear, mas, felizmente, geralmente não importam. A correlação e a regressão linear dão exatamente o mesmo valor de P para o teste de hipóteses, e para a maioria das experiências biológicas, esse é o único resultado realmente importante. Então, se você estiver principalmente interessado no valor do P, você não precisa se preocupar com a diferença entre correlação e regressão. Na maior parte, trataremos a correlação e a regressão linear como diferentes aspectos de uma única análise, e você pode considerar a correlação linear linear para ser um único teste estatístico. Esteja ciente de que minha abordagem é provavelmente diferente do que você verá em outro lugar. A principal diferença entre correlação e regressão é que, na correlação, você amostra ambas as variáveis ​​de medida aleatoriamente de uma população, enquanto na regressão você escolhe os valores da variável independente (X). Por exemplo, dizemos que você é um antropólogo forense, interessado na relação entre o comprimento do pé e a altura do corpo em humanos. Se você encontrar um pé cortado em uma cena do crime, você gostaria de estimar a altura da pessoa de que foi cortada. Você mede o comprimento do pé e a altura do corpo de uma amostra aleatória de humanos, obtém um valor P significativo e calcula r 2 para ser 0,72. Esta é uma correlação, porque você tomou medidas de ambas as variáveis ​​em uma amostra aleatória de pessoas. O r 2 é, portanto, uma estimativa significativa da força da associação entre o comprimento do pé e a altura do corpo em seres humanos, e você pode compará-lo com outros valores de r 2. Você pode querer ver se o r 2 para pés e altura é maior ou menor do que o r 2 para mãos e altura, por exemplo. Como um exemplo de regressão, dizemos que você decidiu que a antropologia forense é muito nojenta, então agora você está interessado no efeito da temperatura do ar na velocidade de corrida em lagartos. Você coloca alguns lagartos em uma câmara de temperatura ajustada para 10 ° C, persegua-os e grava a rapidez com que correm. Você faz o mesmo por 10 temperaturas diferentes, variando até 30degC. Esta é uma regressão, porque você decidiu quais temperaturas usar. Você provavelmente ainda deseja calcular r 2. apenas porque os valores altos são mais impressionantes. Mas não é uma estimativa muito significativa de qualquer coisa sobre os lagartos. Isso ocorre porque o r 2 depende dos valores da variável independente que você escolheu. Para a mesma relação entre a temperatura e a velocidade de funcionamento, uma gama mais estreita de temperaturas daria uma menor r 2. Aqui estão três gráficos que mostram alguns dados simulados, com a mesma dispersão (desvio padrão) dos valores de Y em cada valor de X. Como você pode ver, com uma gama mais estreita de valores X, o r 2 fica menor. Se você fez outro experimento sobre a umidade e velocidade de corrida em seus lagartos e obteve um menor r 2. você não poderia dizer que a velocidade de corrida é mais fortemente associada à temperatura do que à umidade se você tivesse escolhido uma gama mais restrita de temperaturas e uma maior amplitude de humidade , A umidade pode ter um maior r 2 do que a temperatura. Dados simulados que mostram o efeito do intervalo de valores de X no r 2. Para os mesmos dados exatos, a medição de Y em uma menor gama de valores de X produz um r menor 2. Se você tentar classificar cada experiência como regressão ou correlação, Você rapidamente descobrirá que há muitas experiências que não se enquadram claramente em uma categoria. Por exemplo, digamos que você estuda a temperatura do ar e a velocidade de corrida em lagartos. Você sai no deserto todos os sábados durante os oito meses do ano em que seus lagartos estão ativos, medem a temperatura do ar, depois perseguem os lagartos e medem sua velocidade. Você não escolheu deliberadamente a temperatura do ar, apenas tomou uma amostra da variação natural na temperatura do ar, então é uma correlação. Mas você não tomou uma amostra de todo o ano, apenas esses oito meses, e você não escolheu dias ao acaso, apenas Sábados, por isso é uma regressão Se você está principalmente interessado em usar o valor P para teste de hipóteses, para ver se há uma relação entre as duas variáveis, não importa se você chama o teste estatístico de uma regressão ou correlação. Se você está interessado em comparar a força do relacionamento (r 2) com a força de outros relacionamentos, você está fazendo uma correlação e deve projetar sua experiência para que você mestre X e Y em uma amostra aleatória de indivíduos. Se você determinar os valores X antes de fazer a experiência, você está fazendo uma regressão e não deve interpretar o r 2 como uma estimativa de algo geral sobre a população que você observou. Correlação e causalidade Você já ouviu falar que as pessoas o alertam, a correlação não implica causalidade. Este é um lembrete de que quando você está amostrando a variação natural em duas variáveis, também há variação natural em muitas possíveis variáveis ​​de confusão que podem causar a associação entre A e B. Então, se você vê uma associação significativa entre A e B, Não significa necessariamente que a variação em A provoca variação em B pode haver alguma outra variável, C, que afeta ambos. Por exemplo, dizemos que você foi a uma escola primária, encontrou 100 estudantes aleatórios, mediu quanto tempo demorou a amarrar seus sapatos e mediu o comprimento de seus polegares. Tenho certeza de que você encontrará uma forte associação entre as duas variáveis, com polegares mais longos associados a tempos de amarração mais curtos. Tenho certeza de que você poderia encontrar uma explicação biomecânica inteligente e sofisticada para o que ter polegares mais longos faz com que as crianças amarrem seus sapatos mais rápido, completas com vetores de força e ângulos e equações de momentos e modelagem 3-D. No entanto, isso seria bobo, sua amostra de 100 estudantes aleatórios tem variação natural em outra variável, idade e os alunos mais velhos têm polegares maiores e demoram menos tempo para amarrar seus sapatos. Então, se você se certificar de que todos os seus estudantes voluntários tenham a mesma idade, e você ainda verá uma associação significativa entre o tempo de amarração do sapato e o comprimento do polegar, essa correlação implicaria causalidade, porque pensa por que diferentes crianças têm polegares de comprimento diferente. Algumas pessoas são geneticamente maiores do que outras poderiam os genes que afetam o tamanho geral também afetam habilidades motoras finas, talvez. A nutrição afeta o tamanho e a economia familiar afeta a nutrição, pois as crianças pobres têm polegares menores devido a uma nutrição fraca e também têm tempos de amarração mais lentos porque seus pais estavam muito sobrecarregados para ensinar-lhes a amarrar seus sapatos ou porque eram tão pobres que eles Não conseguiram seus primeiros sapatos até chegarem à idade escolar. Eu não sei, talvez algumas crianças passem tanto tempo sugando o polegar para que o polegar realmente fique mais longo, e ter um polegar coberto de cuspe viscoso torna mais difícil segurar um cadarço. Mas haveria múltiplas explicações plausíveis para a associação entre o comprimento do polegar eo tempo de amarração, e seria incorreto concluir que os polegares mais longos fazem você amarrar seus sapatos mais rapidamente. Uma vez que é possível pensar em múltiplas explicações para uma associação entre duas variáveis, isso significa que você deve zincar com cinismo. A correlação não implica causalidade e descarta quaisquer estudos de correlação de variação natural. Por um lado, observar uma correlação entre duas variáveis ​​sugere que Há algo de interessante, algo que você pode querer investigar mais. Por exemplo, estudos mostraram uma correlação entre comer mais frutas frescas e legumes e baixar a pressão arterial. É possível que a correlação seja porque as pessoas com mais dinheiro, que podem pagar frutas e vegetais frescos, têm vidas menos estressantes do que as pessoas pobres, e é a diferença no estresse que afeta a pressão arterial também é possível que as pessoas preocupadas com a sua saúde comam Mais frutas e vegetais e exercita mais, e é o exercício que afeta a pressão arterial. Mas a correlação sugere que comer frutas e vegetais pode reduzir a pressão arterial. Você quer testar esta hipótese ainda mais, procurando a correlação em amostras de pessoas com status socioeconômico semelhante e níveis de exercício controlando estatisticamente possíveis variáveis ​​de confusão usando técnicas como regressão múltipla fazendo estudos em animais ou administrando voluntários humanos dietas controladas com Diferentes quantidades de frutas e vegetais. Se o seu estudo de correlação inicial não encontrou uma associação de pressão arterial com frutas e vegetais, você não teria razão para fazer esses estudos adicionais. A correlação pode não implicar causalidade, mas diz que algo interessante está acontecendo. Em um estudo de regressão, você define os valores da variável independente e controla ou aleatoriza todas as possíveis variáveis ​​de confusão. Por exemplo, se você estiver investigando a relação entre pressão arterial e consumo de frutas e vegetais, você pode pensar que é o potássio nas frutas e vegetais que reduz a pressão arterial. Você poderia investigar isso, obtendo um monte de voluntários do mesmo sexo, idade e status socioeconômico. Você escolhe aleatoriamente a ingestão de potássio para cada pessoa, dê-lhes as pílulas apropriadas, faça-as tomar as pastilhas por um mês e, em seguida, mede sua pressão sanguínea. Todas as possíveis variáveis ​​de confusão são controladas (idade, sexo, renda) ou aleatorizadas (ocupação, estresse psicológico, exercício, dieta), então, se você vê uma associação entre a ingesta de potássio e a pressão arterial, a única causa possível seria a de potássio Afeta a pressão arterial. Então, se você projetou seu experimento corretamente, a regressão implica uma causalidade. Hipótese nula A hipótese nula da regressão linear linear é que a inclinação da linha de melhor ajuste é igual a zero em outras palavras, à medida que a variável X aumenta, a variável Y associada não é maior nem menor. Também é possível testar a hipótese nula de que o valor Y predito pela equação de regressão para um dado valor de X é igual a alguma expectativa teórica, o mais comum estaria testando a hipótese nula de que a intercepção Y é 0. Isso raramente é necessário Em experiências biológicas, então não considero isso aqui, mas esteja ciente de que é possível. Quando você está testando um relacionamento causa-e-efeito, a variável que causa o relacionamento é chamada de variável independente e você o traça no eixo X, enquanto o efeito é chamado de variável dependente e você o traça no eixo Y. Em alguns experimentos, você define a variável independente como valores que você escolheu, por exemplo, se você estiver interessado no efeito da temperatura na taxa de chamada de sapos, você pode colocar rãs em câmaras de temperatura definidas em 10degC, 15degC, 20degC, etc. Casos, ambas as variáveis ​​apresentam variação natural, mas qualquer relação de causa e efeito seria de uma maneira se você medir a temperatura do ar e a taxa de chamada de sapo em uma lagoa em várias noites diferentes, tanto a temperatura do ar como a taxa de chamada exibiriam natural Variação, mas se há uma relação de causa e efeito, sua temperatura afetando a taxa de chamada a taxa na qual a chamada de sapos não afeta a temperatura do ar. Às vezes, não está claro qual é a variável independente e qual é o dependente, mesmo se você acha que pode haver uma relação de causa e efeito. Por exemplo, se você está testando se o conteúdo de sal nos alimentos afeta a pressão arterial, você pode medir o teor de sal das dietas dos povos e sua pressão sanguínea e tratar o teor de sal como a variável independente. Mas se você estivesse testando a idéia de que a pressão arterial elevada faz com que as pessoas implorem alimentos ricos em sal, você deve fazer com que a pressão sanguínea a variável independente e a ingestão de sal dependam da variável. Às vezes, você não está procurando um relacionamento causa-e-efeito, você quer apenas ver se duas variáveis ​​estão relacionadas. Por exemplo, se você medir a amplitude de movimento do quadril e do ombro, você não está tentando ver se os quadris mais flexíveis causam ombros mais flexíveis, ou os ombros mais flexíveis causam quadris mais flexíveis, você está apenas tentando ver se as pessoas Com os quadris mais flexíveis também tendem a ter ombros mais flexíveis, presumivelmente devido a algum fator (idade, dieta, exercício, genética) que afeta a flexibilidade geral. Nesse caso, seria completamente arbitrário qual a variável que você colocou no eixo X e que você colocou no eixo Y. Felizmente, o valor de P e o r 2 não são afetados por qual variável você chama o X e que você chama Y, você terá valores matematicamente idênticos de qualquer maneira. A linha de regressão de mínimos quadrados depende de qual variável é o X e qual é o Y as duas linhas podem ser bastante diferentes se o r 2 for baixo. Se você realmente estiver interessado apenas em saber se as duas variáveis ​​covirão e você não está tentando inferir um relacionamento causa-e-efeito, você pode querer evitar usar a linha de regressão linear como decoração em seu gráfico. Os pesquisadores em alguns campos tradicionalmente colocam a variável independente no eixo Y. Os oceanógrafos, por exemplo, muitas vezes representam a profundidade da parcela no eixo Y (com 0 na parte superior) e uma variável diretamente ou indiretamente afetada pela profundidade, como a concentração de clorofila, no eixo X. Eu não recomendaria isso, a menos que seja uma tradição muito forte em seu campo, pois isso poderia levar à confusão sobre qual variável você está considerando a variável independente em uma regressão linear. Como funciona o teste O gráfico mostra os pontos de dados (pontos), linha de regressão linear (linha grossa) e pontos de dados conectados ao ponto na linha de regressão com o mesmo valor X (linhas finas). A linha de regressão é a linha que minimiza a soma das distâncias verticais quadradas entre os pontos e a linha. Linha de regressão A regressão linear encontra a linha que melhor se adequa aos pontos de dados. Na verdade, existem várias definições diferentes de melhor ajuste e, portanto, uma série de diferentes métodos de regressão linear que se encaixam em linhas algo diferentes. De longe, o mais comum é a regressão ordinária dos mínimos quadrados quando alguém diz apenas regressão de mínimos quadrados ou regressão ou regressão linear, eles significam regressão de mínimos quadrados ordinários. Na regressão dos mínimos quadrados ordinários, o melhor ajuste é definido como a linha que minimiza as distâncias verticais quadradas entre os pontos de dados e a linha. Para um ponto de dados com um valor X de X 1 e um valor Y de Y 1. A diferença entre Y 1 e Y 770 1 (o valor previsto de Y em X 1) é calculada, em seguida, quadrado. Este desvio de quadrado é calculado para cada ponto de dados, e a soma desses desvios quadrados mede o quão bem uma linha se encaixa nos dados. A linha de regressão é aquela para a qual essa soma de desvio quadrado é menor. Eu deixo de fora a matemática que é usada para encontrar a inclinação e a intercepção da linha de melhor ajuste você é um biólogo e tem coisas mais importantes para pensar. A equação para a linha de regressão geralmente é expressa como Y 770 a bX. Onde a é a interceptação Y e b é a inclinação. Uma vez que você conhece a e b. Você pode usar esta equação para prever o valor de Y para um dado valor de X. Por exemplo, a equação para a experiência de velocidade cardíaca é de velocidade 63.3573.749 vezes. Eu poderia usar isso para prever que, para uma velocidade de 10 km / h, minha freqüência cardíaca seria de 100,8 bpm. Você deve fazer esse tipo de previsão dentro do intervalo de valores de X encontrados no conjunto de dados original (interpolação). A previsão de valores de Y fora do intervalo de valores observados (extrapolação) às vezes é interessante, mas pode facilmente produzir resultados ridículos se você for muito longe do alcance observado de X. No exemplo do sapo abaixo, você poderia prever matematicamente que o intervalo entre chamadas seria cerca de 16 segundos a menos 40degC. Na verdade, o intervalo entre chamadas seria o infinito a essa temperatura, porque todos os sapos seriam sólidos congelados. Às vezes você quer prever X de Y. O uso mais comum disso é a construção de uma curva padrão. Por exemplo, você pode pesar algumas proteínas secas e dissolvê-lo em água para fazer soluções contendo 0, 100, 200 de proteína 1000 μg por 100 ml, adicionar alguns reagentes que se tornam coloridos na presença de proteína e, em seguida, medir a absorvância da luz de cada solução Usando um espectrofotômetro. Então, quando você tem uma solução com uma concentração desconhecida de proteína, você adiciona os reagentes, mede a absorvância da luz e estima a concentração de proteína na solução. Existem dois métodos comuns para estimar X de Y. Uma maneira é fazer a regressão usual com X como variável independente e Y como variável dependente para o exemplo de proteína, você tem proteína como variável independente e absorvente como variável dependente. Você obtém a equação usual, Y 770 a bX. Então reorganize-o para resolver X, dando-lhe X 770 (Yminusa) b. Isso é chamado de estimativa clássica. O outro método é fazer regressão linear com Y como variável independente e X como variável dependente, também conhecida como regredindo X em Y. Para a curva padrão de proteína, você faria uma regressão com absorvência como variável X e concentração de proteína como a variável Y. Você então usa essa equação de regressão para prever valores desconhecidos de X de Y. Isso é conhecido como estimativa inversa. Vários estudos de simulação sugeriram que a estimativa inversa fornece uma estimativa mais precisa do X do que a estimativa clássica (Krutchkoff 1967, Krutchkoff 1969, Lwin e Maritz 1982, Kannan et al., 2007), então é o que eu recomendo. No entanto, alguns estatísticos preferem a estimativa clássica (Sokal e Rohlf 1995, pp. 491-493). Se o r 2 for alto (os pontos estão próximos da linha de regressão), a diferença entre estimativa clássica e estimativa inversa é bastante pequena. Quando você está construindo uma curva padrão para algo como concentração de proteína, o r 2 geralmente é tão alto que a diferença entre estimativa clássica e inversa será trivial. Mas os dois métodos podem dar estimativas bastante diferentes de X quando os pontos originais foram espalhados pela linha de regressão. Para o exercício e os dados de pulso, com r 2 de 0,98, a estimativa clássica prevê que para obter um pulso de 100 bpm, eu deveria correr a 9,8 km / h, enquanto a estimativa inversa prevê uma velocidade de 9,7 km / h. Os dados dos anfípodes têm um r 2 muito menor do que 0,25, de modo que a diferença entre as duas técnicas é maior se eu quiser saber de que tamanho o anfípodo teria 30 ovos, a estimativa clássica prevê um tamanho de 10,8 mg, enquanto a estimativa inversa prevê um tamanho de 7,5 mg. Às vezes, seu objetivo em desenhar uma linha de regressão não está preditor de Y de X. Ou prever X de Y. Mas descrevendo a relação entre duas variáveis. Se uma variável é a variável independente e a outra é a variável dependente, você deve usar a linha de regressão de mínimos quadrados. No entanto, se não existe uma relação de causa e efeito entre as duas variáveis, a linha de regressão de mínimos quadrados é inadequada. Isso ocorre porque você terá duas linhas diferentes, dependendo da variável que você escolher para ser a variável independente. Por exemplo, se você quiser descrever a relação entre o comprimento do polegar e o comprimento do dedo grande, você obteria uma linha se você tiver feito o comprimento do polegar, a variável independente e uma linha diferente, se você fez o comprimento do dedo grande na variável independente. A escolha seria completamente arbitrária, pois não há razão para pensar que o comprimento do polegar provoca variação no comprimento do dedo grande, ou vice-versa. A number of different lines have been proposed to describe the relationship between two variables with a symmetrical relationship (where neither is the independent variable). The most common method is reduced major axis regression (also known as standard major axis regression or geometric mean regression). It gives a line that is intermediate in slope between the least-squares regression line of Y on X and the least-squares regression line of X on Y in fact, the slope of the reduced major axis line is the geometric mean of the two least-squares regression lines. While reduced major axis regression gives a line that is in some ways a better description of the symmetrical relationship between two variables (McArdle 2003, Smith 2009), you should keep two things in mind. One is that you shouldnt use the reduced major axis line for predicting values of X from Y . or Y from X you should still use least-squares regression for prediction. The other thing to know is that you cannot test the null hypothesis that the slope of the reduced major axis line is zero, because it is mathematically impossible to have a reduced major axis slope that is exactly zero. Even if your graph shows a reduced major axis line, your P value is the test of the null that the least-square regression line has a slope of zero. Coefficient of determination ( r 2 ) Three relationships with the same slope, same intercept, and different amounts of scatter around the best-fit line. The coefficient of determination, or r 2. expresses the strength of the relationship between the X and Y variables. It is the proportion of the variation in the Y variable that is explained by the variation in the X variable. r 2 can vary from 0 to 1 values near 1 mean the Y values fall almost right on the regression line, while values near 0 mean there is very little relationship between X and Y . As you can see, regressions can have a small r 2 and not look like theres any relationship, yet they still might have a slope thats significantly different from zero. To illustrate the meaning of r 2. here are six pairs of X and Y values: If you didnt know anything about the X value and were told to guess what a Y value was, your best guess would be the mean Y for this example, the mean Y is 10. The squared deviates of the Y values from their mean is the total sum of squares, familiar from analysis of variance. The vertical lines on the left graph below show the deviates from the mean the first point has a deviate of 8, so its squared deviate is 64, etc. The total sum of squares for these numbers is 641111625108. Deviations from the mean Y and from the regression line. Deviations from the mean Y and from the regression line. If you did know the X value and were told to guess what a Y value was, youd calculate the regression equation and use it. The regression equation for these numbers is Y 7702.02861.5429 X . so for the first X value youd predict a Y value of 2.02861.5429times13.5715, etc. The vertical lines on the right graph above show the deviates of the actual Y values from the predicted Y 770 values. As you can see, most of the points are closer to the regression line than they are to the overall mean. Squaring these deviates and taking the sum gives us the regression sum of squares, which for these numbers is 10.8. Deviate from predicted Regression sum of squares: The regression sum of squares is 10.8, which is 90 smaller than the total sum of squares (108). This difference between the two sums of squares, expressed as a fraction of the total sum of squares, is the definition of r 2. In this case we would say that r 2 0.90 the X variable explains 90 of the variation in the Y variable. The r 2 value is formally known as the coefficient of determination, although it is usually just called r 2. The square root of r 2. with a negative sign if the slope is negative, is the Pearson product-moment correlation coefficient, r . or just correlation coefficient. You can use either r or r 2 to describe the strength of the association between two variables. I prefer r 2. because it is used more often in my area of biology, it has a more understandable meaning (the proportional difference between total sum of squares and regression sum of squares), and it doesnt have those annoying negative values. You should become familiar with the literature in your field and use whichever measure is most common. One situation where r is more useful is if you have done linear regressioncorrelation for multiple sets of samples, with some having positive slopes and some having negative slopes, and you want to know whether the mean correlation coefficient is significantly different from zero see McDonald and Dunn (2013) for an application of this idea. Test statistic The test statistic for a linear regression is t s radic d. f.times r 2 radic (1minus r 2 )nbsp. It gets larger as the degrees of freedom ( n minus2) get larger or the r 2 gets larger. Under the null hypothesis, the test statistic is t - distributed with n minus2 degrees of freedom. When reporting the results of a linear regression, most people just give the r 2 and degrees of freedom, not the t s value. Anyone who really needs the t s value can calculate it from the r 2 and degrees of freedom. For the heart ratendashspeed data, the r 2 is 0.976 and there are 9 degrees of freedom, so the t s - statistic is 19.2. It is significant ( P 1.3times10 -8 ). Some people square t s and get an F-statistic with 1 degree of freedom in the numerator and n minus2 degrees of freedom in the denominator. The resulting P value is mathematically identical to that calculated with t s . Because the P value is a function of both the r 2 and the sample size, you should not use the P value as a measure of the strength of association. If the correlation of A and B has a smaller P value than the correlation of A and C, it doesnt necessarily mean that A and B have a stronger association it could just be that the data set for the AndashB experiment was larger. If you want to compare the strength of association of different data sets, you should use r or r 2 . Assumptions Normality and homoscedasticity. Two assumptions, similar to those for anova, are that for any value of X . the Y values will be normally distributed and they will be homoscedastic. Although you will rarely have enough data to test these assumptions, they are often violated. Fortunately, numerous simulation studies have shown that regression and correlation are quite robust to deviations from normality this means that even if one or both of the variables are non-normal, the P value will be less than 0.05 about 5 of the time if the null hypothesis is true (Edgell and Noon 1984, and references therein). So in general, you can use linear regressioncorrelation without worrying about non-normality. Sometimes youll see a regression or correlation that looks like it may be significant due to one or two points being extreme on both the x and y axes. In this case, you may want to use Spearmans rank correlation. which reduces the influence of extreme values, or you may want to find a data transformation that makes the data look more normal. Another approach would be analyze the data without the extreme values, and report the results with or without them outlying points your life will be easier if the results are similar with or without them. When there is a significant regression or correlation, X values with higher mean Y values will often have higher standard deviations of Y as well. This happens because the standard deviation is often a constant proportion of the mean. For example, people who are 1.5 meters tall might have a mean weight of 50 kg and a standard deviation of 10 kg, while people who are 2 meters tall might have a mean weight of 100 kg and a standard deviation of 20 kg. When the standard deviation of Y is proportional to the mean, you can make the data be homoscedastic with a log transformation of the Y variable. Linearity. Linear regression and correlation assume that the data fit a straight line. If you look at the data and the relationship looks curved, you can try different data transformations of the X . the Y . or both, and see which makes the relationship straight. Of course, its best if you choose a data transformation before you analyze your data. You can choose a data transformation beforehand based on previous data youve collected, or based on the data transformation that others in your field use for your kind of data. A data transformation will often straighten out a J-shaped curve. If your curve looks U-shaped, S-shaped, or something more complicated, a data transformation wont turn it into a straight line. In that case, youll have to use curvilinear regression . Independence. Linear regression and correlation assume that the data points are independent of each other, meaning that the value of one data point does not depend on the value of any other data point. The most common violation of this assumption in regression and correlation is in time series data, where some Y variable has been measured at different times. For example, biologists have counted the number of moose on Isle Royale, a large island in Lake Superior, every year. Moose live a long time, so the number of moose in one year is not independent of the number of moose in the previous year, it is highly dependent on it if the number of moose in one year is high, the number in the next year will probably be pretty high, and if the number of moose is low one year, the number will probably be low the next year as well. This kind of non-independence, or autocorrelation, can give you a significant regression or correlation much more often than 5 of the time, even when the null hypothesis of no relationship between time and Y is true. If both X and Y are time seriesmdashfor example, you analyze the number of wolves and the number of moose on Isle Royalemdashyou can also get a significant relationship between them much too often. To illustrate how easy it is to fool yourself with time-series data, I tested the correlation between the number of moose on Isle Royale in the winter and the number of strikeouts thrown by major league baseball teams the following season, using data for 2004ndash2013. I did this separately for each baseball team, so there were 30 statistical tests. Im pretty sure the null hypothesis is true (I cant think of anything that would affect both moose abundance in the winter and strikeouts the following summer), so with 30 baseball teams, youd expect the P value to be less than 0.05 for 5 of the teams, or about one or two. Instead, the P value is significant for 7 teams, which means that if you were stupid enough to test the correlation of moose numbers and strikeouts by your favorite team, youd have almost a 1-in-4 chance of convincing yourself there was a relationship between the two. Some of the correlations look pretty good: strikeout numbers by the Cleveland team and moose numbers have an r 2 of 0.70 and a P value of 0.002: Number of moose on Isle Royale and strikeouts by the Cleveland baseball team, showing how easy it is to get an impressive-looking correlation from two autocorrelated data sets. There are special statistical tests for time-series data. I will not cover them here if you need to use them, see how other people in your field have analyzed data similar to yours, then find out more about the methods they used. Spatial autocorrelation is another source of non-independence. This occurs when you measure a variable at locations that are close enough together that nearby locations will tend to have similar values. For example, if you want to know whether the abundance of dandelions is associated with the among of phosphate in the soil, you might mark a bunch of 1 m 2 squares in a field, count the number of dandelions in each quadrat, and measure the phosphate concentration in the soil of each quadrat. However, both dandelion abundance and phosphate concentration are likely to be spatially autocorrelated if one quadrat has a lot of dandelions, its neighboring quadrats will also have a lot of dandelions, for reasons that may have nothing to do with phosphate. Similarly, soil composition changes gradually across most areas, so a quadrat with low phosphate will probably be close to other quadrats that are low in phosphate. It would be easy to find a significant correlation between dandelion abundance and phosphate concentration, even if there is no real relationship. If you need to learn about spatial autocorrelation in ecology, Dale and Fortin (2009) is a good place to start. Another area where spatial autocorrelation is a problem is image analysis. For example, if you label one protein green and another protein red, then look at the amount of red and green protein in different parts of a cell, the high level of autocorrelation between neighboring pixels makes it very easy to find a correlation between the amount of red and green protein, even if there is no true relationship. See McDonald and Dunn (2013) for a solution to this problem. A common observation in ecology is that species diversity decreases as you get further from the equator. To see whether this pattern could be seen on a small scale, I used data from the Audubon Societys Christmas Bird Count. in which birders try to count all the birds in a 15-mile diameter area during one winter day. I looked at the total number of species seen in each area on the Delmarva Peninsula during the 2005 count. Latitude and number of bird species are the two measurement variables location is the hidden nominal variable. Latitude and bird species on the Delmarva Peninsula. The result is r 2 0.214, with 15 d. f. so the P value is 0.061. The trend is in the expected direction, but it is not quite significant. The equation of the regression line is number of speciesminus12.039timeslatitude585.14. Even if it were significant, I dont know what youd do with the equation I suppose you could extrapolate and use it to predict that above the 49th parallel, there would be fewer than zero bird species. Gayou (1984) measured the intervals between male mating calls in the gray tree frog, Hyla versicolor . at different temperatures. The regression line is intervalminus0.205timestemperature8.36, and it is highly significant ( r 2 0.29, 45 d. f. P 9times10 minus5 ). You could rearrange the equation, temperature(intervalminus8.36)(minus0.205), measure the interval between frog mating calls, and estimate the air temperature. Or you could buy a thermometer. Goheen et al. (2003) captured 14 female northern grasshopper mice ( Onchomys leucogaster ) in north-central Kansas, measured the body length, and counted the number of offspring. There are two measurement variables, body length and number of offspring, and the authors were interested in whether larger body size causes an increase in the number of offspring, so they did a linear regression. The results are significant: r 2 0.46, 12 d. f. P 0.008. The equation of the regression line is offspring0.108timeslengthminus7.88. Graphing the results In a spreadsheet, you show the results of a regression on a scatter graph, with the independent variable on the X axis. To add the regression line to the graph, finish making the graph, then select the graph and go to the Chart menu. Choose Add Trendline and choose the straight line. If you want to show the regression line extending beyond the observed range of X values, choose Options and adjust the Forecast numbers until you get the line you want. Similar tests Sometimes it is not clear whether an experiment includes one measurement variable and two nominal variables, and should be analyzed with a two-way anova or paired t ndashtest, or includes two measurement variables and one hidden nominal variable, and should be analyzed with correlation and regression. In that case, your choice of test is determined by the biological question youre interested in. For example, lets say youve measured the range of motion of the right shoulder and left shoulder of a bunch of right-handed people. If your question is Is there an association between the range of motion of peoples right and left shouldersmdashdo people with more flexible right shoulders also tend to have more flexible left shoulders, youd treat right shoulder range-of-motion and left shoulder range-of-motion as two different measurement variables, and individual as one hidden nominal variable, and analyze with correlation and regression. If your question is Is the right shoulder more flexible than the left shoulder, youd treat range of motion as one measurement variable, right vs. left as one nominal variable, individual as one nominal variable, and youd analyze with two-way anova or a paired t ndashtest. If the dependent variable is a percentage, such as percentage of people who have heart attacks on different doses of a drug, its really a nominal variable, not a measurement. Each individual observation is a value of the nominal variable (heart attack or no heart attack) the percentage is not really a single observation, its a way of summarizing a bunch of observations. One approach for percentage data is to arcsine transform the percentages and analyze with correlation and linear regression. Youll see this in the literature, and its not horrible, but its better to analyze using logistic regression. If the relationship between the two measurement variables is best described by a curved line, not a straight one, one possibility is to try different transformations on one or both of the variables. The other option is to use curvilinear regression. If one or both of your variables are ranked variables, not measurement, you should use Spearman rank correlation. Some people recommend Spearman rank correlation when the assumptions of linear regressioncorrelation (normality and homoscedasticity) are not met, but Im not aware of any research demonstrating that Spearman is really better in this situation. To compare the slopes or intercepts of two or more regression lines to each other, use ancova. If you have more than two measurement variables, use multiple regression. How to do the test Spreadsheet I have put together a spreadsheet to do linear regression and correlation on up to 1000 pairs of observations. It provides the following: The regression coefficient (the slope of the regression line). The Y intercept. With the slope and the intercept, you have the equation for the regression line: Y 770 a bX . where a is the y intercept and b is the slope. The r 2 value. The degrees of freedom. There are n minus2 degrees of freedom in a regression, where n is the number of observations. The P value. This gives you the probability of finding a slope that is as large or larger than the observed slope, under the null hypothesis that the true slope is 0. A Y estimator and an X estimator. This enables you to enter a value of X and find the corresponding value of Y on the best-fit line, or vice-versa. This would be useful for constructing standard curves, such as used in protein assays for example. Web pages that will perform linear regression are here, here, and here. They all require you to enter each number individually, and thus are inconvenient for large data sets. This web page does linear regression and lets you paste in a set of numbers, which is more convenient for large data sets. You can use either PROC GLM or PROC REG for a simple linear regression since PROC REG is also used for multiple regression, you might as well learn to use it. In the MODEL statement, you give the Y variable first, then the X variable after the equals sign. Heres an example using the bird data from above. The output includes an analysis of variance table. Dont be alarmed by this if you dig down into the math, regression is just another variety of anova. Below the anova table are the r 2. slope, intercept, and P value: These results indicate an r 2 of 0.21, intercept of 585.1, a slope of minus12.04, and a P value of 0.061. The GPower program will calculate the sample size needed for a regressioncorrelation. The effect size is the absolute value of the correlation coefficient r if you have r 2. take the positive square root of it. Choose t tests from the Test family menu and Correlation: Point biserial model from the Statistical test menu. Enter the r value you hope to see, your alpha (usually 0.05) and your power (usually 0.80 or 0.90). For example, lets say you want to look for a relationship between calling rate and temperature in the barking tree frog, Hyla gratiosa . Gayou (1984) found an r 2 of 0.29 in another frog species, H. versicolor . so you decide you want to be able to detect an r 2 of 0.25 or more. The square root of 0.25 is 0.5, so you enter 0.5 for Effect size, 0.05 for alpha, and 0.8 for power. The result is 26 observations of temperature and frog calling rate. Its important to note that the distribution of X variables, in this case air temperatures, should be the same for the proposed study as for the pilot study the sample size calculation was based on. Gayou (1984) measured frog calling rate at temperatures that were fairly evenly distributed from 10degC to 34degC. If you looked at a narrower range of temperatures, youd need a lot more observations to detect the same kind of relationship. References Dale, M. R.T. and M.-J. Fortin. 2009. Spatial autocorrelation and statistical tests: some solutions. Journal of Agricultural, Biological and Environmental Statistics 14: 188-206. Edgell, S. E. and S. M. Noon. 1984. Effect of violation of normality on the t ndashtest of the correlation coefficient. Psychological Bulletin 95: 576-583. Gayou, D. C. 1984. Effects of temperature on the mating call of Hyla versicolor. Copeia 1984: 733-738. Goheen, J. R. G. A. Kaufman, and D. W. Kaufman. 2003. Effect of body size on reproductive characteristics of the northern grasshopper mouse in north-central Kansas. Southwestern Naturalist 48: 427-431. Kannan, N. J. P. Keating, and R. L. Mason. 2007. A comparison of classical and inverse estimators in the calibration problem. Communications in Statistics: Theory and Methods 36: 83-95. Krutchkoff, R. G. 1967. Classical and inverse regression methods of calibration. Technometrics 9: 425-439. Krutchkoff, R. G. 1969. Classical and inverse regression methods of calibration in extrapolation. Technometrics 11: 605-608. Lwin, T. and J. S. Maritz. 1982. An analysis of the linear-calibration controversy from the perspective of compound estimation. Technometrics 24: 235-242. McCardle, B. H. 2003. Lines, models, and errors: Regression in the field. Limnology and Oceanography 48: 1363-1366. McDonald, J. H. 1989. Selection component analysis of the Mpi locus in the amphipod Platorchestia platensis . Heredity 62: 243-249. McDonald, J. H. and K. W. Dunn. 2013. Statistical tests for measures of colocalization in biological microscopy. Journal of Microscopy 252: 295-302. Smith, R. J. 2009. Use and misuse of the reduced major axis for line-fitting. American Journal of Physical Anthropology 140: 476-486. Sokal, R. R. and F. J. Rohlf. 1995. Biometry. W. H. Freeman, New York. This page was last revised July 20, 2015. Its address is biostathandbooklinearregression. html. It may be cited as: McDonald, J. H. 2014. Handbook of Biological Statistics (3rd ed.). Sparky House Publishing, Baltimore, Maryland. This web page contains the content of pages 190-208 in the printed version . copy2014 by John H. McDonald. You can probably do what you want with this content see the permissions page for details.

No comments:

Post a Comment