domingo, fevereiro 16, 2020

Avaliação de testes diagnósticos

Avaliação de testes diagnósticos
Estudos estatísticos

A avaliação de testes diagnósticos, por métodos estatísticos, é uma condição importante, quer sob o ponto de vista epidemiológico quer sob o ponto de vista de investigação clínica. O desempenho dum teste está dependente da presença ou ausência de desvio em relação à realidade, denominado como “ausência de viés”, e de precisão do teste, em que o mesmo teste realizado na mesma amostra deverá dar o mesmo resultado, ou seja, o desempenho do teste depende da validade e da reprodutibilidade do teste em causa.

  • Reprodutibilidade ou repetibilidade dum teste é a propriedade estatística da consistência dos resultados quando o exame é realizado repetidamente; o facto de um teste ter uma óptima reprodutibilidade não significa que esteja correcto, pois o resultado pode ser reprodutível e errado;
  • Validade ou acurácia é a propriedade estatística do grau do teste, ou estimativa baseada nesse teste, determinar o valor verdadeiro do que está a ser mensurado; a validade determina se um teste está a mensurar o valor verdadeiro ou quanto se afasta dele;
  • Relação entre precisão e acurácia é a relação entre o valor verdadeiro de uma determinação quantitativa e o valor determinado pelo teste em termos de alta ou baixa validade e reprodutibilidade.



  • Esta relação precisão/acurácia é importante na determinação da validade do teste. Um teste com uma reprodutibilidade baixa, mas em que a média de valores se encontra próxima do valor verdadeiro, determina que o teste pode ser válido mas com pouca utilidade. Por outro lado, um teste com uma reprodutibilidade alta não significa que os valores obtidos sejam correctos, pois os valores podem estar longe da vida real.

É fundamental, para separar doentes de sadios, com base nos resultados de um teste, a validade e a reprodutibilidade serem mensurados de forma adequada.


Reprodutibilidade, repetibilidade ou precisão é a propriedade do teste capaz de produzir resultados consistente quando realizados de forma independente e sob as mesmas condições de trabalho.
Melhores resultados de reprodutibilidade são alcançados no trabalho de laboratório com condições controladas de trabalho. Um baixo nível de reprodutibilidade atenua as verdadeiras correlações entre os eventos, limitando a utilidade de diagnóstico clínico. A avaliação de reprodutibilidade serve para verificar a concordância de resultados entre leituras dum mesmo evento ou para comparar métodos diferentes de diagnóstico e dessa forma avaliar o erro na aferição. A comparação dos resultados pode ser apresentada através da taxa global de concordância entre examinadores ou pelo indicador k.


Índice k ( k ) é uma forma muito comum de exprimir a confiabilidade de um teste sendo um avanço comparativamente à taxa geral de concordância, pois é um indicador ajustado levando em conta a concordância devida ao acaso ou chance
O k dá a proporção de concordância não devida à chance, ou não aleatória ( além da esperada pela chance ) variando entre “ menos 1 “ ( completamente desacordo ) e “ mais 1 “ ( acordo total ). Se a medida concorda de forma mais frequente do que o esperado pela chance, o valor de k é superior a zero; um zero para k indica que as leituras são iguais às feitas ao acaso.









Como se determina o valor k?
Exemplo: foram vistas 120 lâminas por 2 observadores; o 1º identificou 20 resultados positivos e
100 negativos enquanto o 2º observador identificou 30 resultados positivos e 90
negativos, gerando 106 resultados concordantes ( 18 + 88 ) e 14 discordantes ( 2 + 12 ).
A taxa geral de concordância foi de 88.3% ( 106/120 ) e o valor k de 65%.


K é obtido pela fórmula

K = (Po – Pe ) / ( 1 – Pe )
em que Po são as concordâncias observadas
Pe são as concordâncias esperadas

Po = ( a + b ) / ( a + b + c + d )

Pe = { [ ( a + b ) ( a + c ) ] + [ ( c + d ) ( b + d ) ] } / ( a + b + c + d )²

Na interpretação de k deve ter-se em consideração:
  • tipo de evento e outros factores: o nível de concordância é dependente de várias permissas, nomeadamente tipo de evento, factores que se relacionam com o examinador, factores relacionados com o procedimento e factores que se relacionam com o ambiente onde se realizam os testes. A concordância varia na relação inversa com o número de categorias de resultados ( valores positivo/negativo em comparação com valor alto/médio/intermédio/baixo, por exemplo );
  • prevalência: a prevalência na população tem repercussão no resultado final e tende a variar paralelamente, a prevalência com o nível de reprodutibilidade, pois o k depende da concordância que é devida ao acaso. Por este facto, a prevalência de evento deve ser fornecida aquando do fornecimento do valor k;
  • independência da avaliação: as avaliações devem ser independentes umas das outras e esta independência também tem de ser aplicada à verificação validade/acurácia

Validade de um teste diagnóstico

A validade de um teste refere-se ao quanto um teste tem utilidade para diagnosticar um determinado evento ( validade simultânea ou concorrente ) ou para predizer esse evento ( validade preditiva ), seja em termos quantitativos ou qualitativos.
Para determinar a validade, compara-se os resultados do teste em estudo com os de um teste padrão ( padrão ouro ).


Sensibilidade e especificidade

Os melhores testes são aqueles que menos resultados falsos positivos e falsos negativos apresentam


Com base nestes resultados do quadro, temos que:
  • Sensibilidade a / ( a + c )
  • Especificidade d / ( b + d )
  • Prevalência ( real ) ( a + c ) / N
  • Prevalência estimada ( teste ) ( a + b ) / N
  • Valor Preditivo Positivo ( VPP ) a / ( a + b )
  • Valor Preditivo Negativo ( VPN ) d / ( c + d )
  • Classificação correcta ( acurácia ) ( a + d ) / N
  • Classificação incorrecta ( b + c ) / N

Daqui se pode afirmar que:
  • Sensibilidade é a capacidade do teste de detectar os verdadeiros positivos
  • Especificidade é a capacidade do teste de determinar quais os verdadeiros negativos
  • Co-positividade e co-negatividade são as designações que se usam em substituição, respectivamente, de sensibilidade e especificidade, nas situações em que se usa outro teste considerado referência e não os diagnósticos de certeza ( usado nos casos de sensibilidade e especificidade ). Co-positividade e co-negatividade também se designam de sensibilidade relativa e especificidade relativa
  • Ponte de corte dos resultados positivos: teste com 100% de sensibilidade e de especificidade raramente existe, pois aumentando-se a sensibilidade diminui-se a especificidade e vice-versa. Na defenição de ponto de corte tem de se levar em consideração a importância relativa da sensibilidade e especificidade do teste.
  • Valor preditivo é o valor de um teste em predizer o ocorrência de doença e responde à questão:” Com o teste positivo ( ou negativo ), qual a probabilidade do sujeito estar na verdade doente ( ou saudável ) ? “. Esta característica do teste é denominada de Valor Preditivo Positivo ( ou Negativo ) e é obtida pela interacção de 3 variáveis: sensibilidade, especificidade e prevalência do evento
  • Valor Preditivo Positivo designa a proporção de indivíduos doentes entre os testes positivos
  • Valor Preditivo Negativo designa a proporção de indivíduos saudáveis entre os testes negativos
  • Relação entre Valor Preditivo e Prevalência: sensibilidade e especificidade são propriedades inerentes ao teste, apenas variando por erros técnicos, enquanto que os VPs dependem da prevalência, aumentando o VPP paralelamente à prevalência enquanto que o VPN tem uma relação inversa com a prevalência.

Os resultados falsos positivos e falsos negativos podem minimizar pela combinação de testes em paralelo ( 2 ou mais testes realizados simultâneamente ) ou em série ( 2 ou mais testes realizados em sequência ) para a determinação do resultado positivo.
Para aumentar a especificidade ( reduzir falsos positivos ), o resultado apenas é considerado positivo se, pelo menos, 2 testes forem positivos; para aumentar a sensibilidade ( reduzir os falsos negativos ) considera-se que basta um único teste positivo como suficiente para o diagnóstico ser positivo.


Erro sistemático e erro aleatório na determinação da sensibilidade e especificidade

Erro aleatório é o erro que pode ocorrer por acaso, sendo avaliado pelo cálculo de intervalo de confiança para a sensibilidade e especificidade do teste.
O intervalo de confiança indica o leque de variação dos resultados obtidos para se poderem comparar com os testes convencionais.
Para minimizar os erros aleatórios, deve-se estimar o tamanho da amostra necessário para determinar a validade do teste baseado na construção de intervalos de confiança, devendo-se definir os valores da sensibilidade e especificidade do teste, o que significa que temos de obter um tamanho da amostra para a sensibilidade e outro ( que pode ser ou não igual ) para a especificidade.

Como se determina o tamanho da amostra para a sensibilidade e especificidade

Para este cálculo, é necessário:
  • estimativa da proporção esperada de positivos ( quando este valor é superior a 50% deve ser usada a proporção de resultados negativos );
  • amplitude do intervalo de confiança desejável;
  • definição do intervalo de confiança ( por regra é de 95% )

N = Z * Z ( P ( 1 – P )) / ( D * D )

em que P proporção esperada
D semi-amplitude do intervalo de confiança
Z 1.96 ( para α = 0.05 e Intervalo de Confiança de 95% )

Exemplo: Num estudo para determinar a sensibilidade de um teste, espera-se que 80% dos doentes
com a doença, sejam positivos
Qual o tamanho da amostra de indivíduos doentes para se estimar uma sensibilidade do
teste de 80% ( 1 ) com um intervalo de confiança de 95% ( 3 ) e precisão de 0.04 ( 2 )?

Considerando as 3 premissas necessárias para o estudo da amostra, temos que:
  1. Proporção esperada de casos com doença e teste positivo = 0.20 ( 80% [ 1 ] é superior a 50%, pelo que se usa o valor dos negativos que é de 20% )
  2. Espectro do intervalo de confiança = 0.08. Usa-se a semi-amplitude ( 0.04 [ 2 ] acima ou 0.04 [ 2 ] abaixo ) como erro máximo aceitável
  3. Intervalo de confiança de 95% ( 3 )
  4. Substituindo as variáveis da fórmula pelos valores numéricos, obtemos
N = 1.96 * 1.96 ( 0.20 ( 1 – 0.20 )) / ( 0.04 * 0.04 ) = 384 doentes

Na determinação do tamanho da amostra para a especificidade do teste os procedimentos são os mesmos
Exemplo: se se espera 90% de negatividades para um teste, 216 indivíduos deveriam ser a amostra
para termos uma especificidade de 90% ± 0.04 com um IC = 95%


Erro sistemático: os viés mais comuns são os de amostragem, de medida do teste e de relato dos resultados

  • Viés de amostragem é um tipo de erro no qual a amostra estudada não é representativa da população alvo, como acontece, por exemplo, quando a amostra é feita em serviços de referência que tende assim a incluir pessoas com maior probabilidade de positividade do teste do que a população em geral, dando resultados com aumento de sensibilidade do teste. Também a amostra apresentará viés de amostragem, com aumento de especificidade, se houver um número aumentado de negativos comparativamente com o normal da população em geral. Para minimizar este viés, deve a amostra ser de indivíduos que semelhem a globalidade da população à qual o teste será aplicado. A escolha de uma população com prevalência de resultados positivos leva a valor preditivo positivo sobreestimado.
  • Viés de mensuração: o investigador deverá desconhecer quais os indivíduos que são positivos, ou negativos, para evitar vícios de interpretação. O ponto de corte deve ser definido antes da interpretação do teste.
  • ~Viés de publicação: dado haver tendência a publicar apenas os estudos com “ sucesso “, isto leva a um bias de literatura. Para minimizar este viés de publicação, os estudos devem seguir um planeamento com um número suficiente de indivíduos para os resultados serem credíveis e devidamente publicados.


Princípios básicos de avaliação dum teste diagnóstico

Dois aspectos devem estar incluídos:
  • princípio de aleatorização e mascaramento
  • levar em conta a prática clínica vigente

Estudos para determinar a validade dum teste incluem a variável preditiva ( resultado do teste ) e a variável efeito ( presença ou ausência da doença ).