Avaliação
de testes diagnósticos
Estudos
estatísticos
A
avaliação de testes diagnósticos, por métodos estatísticos, é
uma condição importante, quer sob o ponto de vista epidemiológico
quer sob o ponto de vista de investigação clínica. O desempenho
dum teste está dependente da presença ou ausência de desvio em
relação à realidade, denominado como “ausência de viés”,
e de precisão do teste, em que o mesmo teste realizado na
mesma amostra deverá dar o mesmo resultado, ou seja, o desempenho do
teste depende da validade e da reprodutibilidade do teste em causa.
- Reprodutibilidade ou repetibilidade dum teste é a propriedade estatística da consistência dos resultados quando o exame é realizado repetidamente; o facto de um teste ter uma óptima reprodutibilidade não significa que esteja correcto, pois o resultado pode ser reprodutível e errado;
- Validade ou acurácia é a propriedade estatística do grau do teste, ou estimativa baseada nesse teste, determinar o valor verdadeiro do que está a ser mensurado; a validade determina se um teste está a mensurar o valor verdadeiro ou quanto se afasta dele;
- Relação entre precisão e acurácia é a relação entre o valor verdadeiro de uma determinação quantitativa e o valor determinado pelo teste em termos de alta ou baixa validade e reprodutibilidade.
- Esta relação precisão/acurácia é importante na determinação da validade do teste. Um teste com uma reprodutibilidade baixa, mas em que a média de valores se encontra próxima do valor verdadeiro, determina que o teste pode ser válido mas com pouca utilidade. Por outro lado, um teste com uma reprodutibilidade alta não significa que os valores obtidos sejam correctos, pois os valores podem estar longe da vida real.
É fundamental, para separar doentes de sadios, com base
nos resultados de um teste, a validade e a reprodutibilidade serem
mensurados de forma adequada.
Reprodutibilidade,
repetibilidade ou precisão é
a propriedade do teste capaz de produzir resultados consistente
quando realizados de forma independente e sob as mesmas condições
de trabalho.
Melhores
resultados de reprodutibilidade são alcançados no trabalho de
laboratório com condições controladas de trabalho. Um baixo nível
de reprodutibilidade atenua as verdadeiras correlações entre os
eventos, limitando a utilidade de diagnóstico clínico. A avaliação
de reprodutibilidade serve para verificar a concordância de
resultados entre leituras dum mesmo evento ou para comparar métodos
diferentes de diagnóstico e dessa forma avaliar o erro na aferição.
A comparação dos resultados pode ser apresentada através da taxa
global de concordância entre examinadores ou pelo indicador
k.
Índice
k (
k )
é
uma forma muito comum de exprimir a confiabilidade de um teste sendo
um avanço comparativamente à taxa geral de concordância, pois é
um indicador ajustado levando em conta a concordância devida ao
acaso ou chance
O
k
dá a proporção de concordância não devida à chance, ou não
aleatória ( além da esperada pela chance ) variando entre “ menos
1 “ ( completamente desacordo ) e “ mais 1 “ ( acordo total ).
Se a medida concorda de forma mais frequente do que o esperado pela
chance, o valor de k
é superior a zero; um zero para k
indica que as leituras são iguais às feitas ao acaso.
Como
se determina o valor k?
Exemplo: foram vistas 120 lâminas por 2 observadores; o 1º
identificou 20 resultados positivos e
100 negativos enquanto o 2º observador
identificou 30 resultados positivos e 90
negativos, gerando 106 resultados concordantes ( 18
+ 88 ) e 14 discordantes ( 2 + 12 ).
A
taxa geral de concordância foi de 88.3% ( 106/120 ) e o valor k
de 65%.
K
é
obtido pela fórmula
K = (Po – Pe ) / ( 1 – Pe )
em que Po são as concordâncias
observadas
Pe são as
concordâncias esperadas
Po = ( a + b ) / ( a + b + c + d )
Pe
= { [ ( a + b ) ( a + c ) ] + [ ( c + d ) ( b + d ) ] } / ( a + b + c
+ d )²
Na interpretação de k deve
ter-se em consideração:
- tipo de evento e outros factores: o nível de concordância é dependente de várias permissas, nomeadamente tipo de evento, factores que se relacionam com o examinador, factores relacionados com o procedimento e factores que se relacionam com o ambiente onde se realizam os testes. A concordância varia na relação inversa com o número de categorias de resultados ( valores positivo/negativo em comparação com valor alto/médio/intermédio/baixo, por exemplo );
- prevalência: a prevalência na população tem repercussão no resultado final e tende a variar paralelamente, a prevalência com o nível de reprodutibilidade, pois o k depende da concordância que é devida ao acaso. Por este facto, a prevalência de evento deve ser fornecida aquando do fornecimento do valor k;
- independência da avaliação: as avaliações devem ser independentes umas das outras e esta independência também tem de ser aplicada à verificação validade/acurácia
Validade de um teste
diagnóstico
A validade de um teste refere-se
ao quanto um teste tem utilidade para diagnosticar um determinado
evento ( validade simultânea ou concorrente ) ou para predizer esse
evento ( validade preditiva ), seja em termos quantitativos ou
qualitativos.
Para determinar a validade,
compara-se os resultados do teste em estudo com os de um teste padrão
( padrão ouro ).
Sensibilidade e especificidade
Os melhores testes são aqueles
que menos resultados falsos positivos e falsos negativos apresentam
Com base nestes resultados do
quadro, temos que:
- Sensibilidade a / ( a + c )
- Especificidade d / ( b + d )
- Prevalência ( real ) ( a + c ) / N
- Prevalência estimada ( teste ) ( a + b ) / N
- Valor Preditivo Positivo ( VPP ) a / ( a + b )
- Valor Preditivo Negativo ( VPN ) d / ( c + d )
- Classificação correcta ( acurácia ) ( a + d ) / N
- Classificação incorrecta ( b + c ) / N
Daqui se pode afirmar que:
- Sensibilidade é a capacidade do teste de detectar os verdadeiros positivos
- Especificidade é a capacidade do teste de determinar quais os verdadeiros negativos
- Co-positividade e co-negatividade são as designações que se usam em substituição, respectivamente, de sensibilidade e especificidade, nas situações em que se usa outro teste considerado referência e não os diagnósticos de certeza ( usado nos casos de sensibilidade e especificidade ). Co-positividade e co-negatividade também se designam de sensibilidade relativa e especificidade relativa
- Ponte de corte dos resultados positivos: teste com 100% de sensibilidade e de especificidade raramente existe, pois aumentando-se a sensibilidade diminui-se a especificidade e vice-versa. Na defenição de ponto de corte tem de se levar em consideração a importância relativa da sensibilidade e especificidade do teste.
- Valor preditivo é o valor de um teste em predizer o ocorrência de doença e responde à questão:” Com o teste positivo ( ou negativo ), qual a probabilidade do sujeito estar na verdade doente ( ou saudável ) ? “. Esta característica do teste é denominada de Valor Preditivo Positivo ( ou Negativo ) e é obtida pela interacção de 3 variáveis: sensibilidade, especificidade e prevalência do evento
- Valor Preditivo Positivo designa a proporção de indivíduos doentes entre os testes positivos
- Valor Preditivo Negativo designa a proporção de indivíduos saudáveis entre os testes negativos
- Relação entre Valor Preditivo e Prevalência: sensibilidade e especificidade são propriedades inerentes ao teste, apenas variando por erros técnicos, enquanto que os VPs dependem da prevalência, aumentando o VPP paralelamente à prevalência enquanto que o VPN tem uma relação inversa com a prevalência.
Os resultados falsos positivos e
falsos negativos podem minimizar pela combinação de testes em
paralelo ( 2 ou mais testes realizados simultâneamente ) ou em série
( 2 ou mais testes realizados em sequência ) para a determinação
do resultado positivo.
Para aumentar a especificidade (
reduzir falsos positivos ), o resultado apenas é considerado
positivo se, pelo menos, 2 testes forem positivos; para aumentar a
sensibilidade ( reduzir os falsos negativos ) considera-se que basta
um único teste positivo como suficiente para o diagnóstico ser
positivo.
Erro sistemático e erro
aleatório na determinação da sensibilidade e especificidade
Erro aleatório é o erro que
pode ocorrer por acaso, sendo avaliado pelo cálculo de intervalo de
confiança para a sensibilidade e especificidade do teste.
O intervalo de confiança indica
o leque de variação dos resultados obtidos para se poderem comparar
com os testes convencionais.
Para minimizar os erros
aleatórios, deve-se estimar o tamanho da amostra necessário para
determinar a validade do teste baseado na construção de intervalos
de confiança, devendo-se definir os valores da sensibilidade e
especificidade do teste, o que significa que temos de obter um
tamanho da amostra para a sensibilidade e outro ( que pode ser ou não
igual ) para a especificidade.
Como se determina o tamanho da
amostra para a sensibilidade e especificidade
Para este cálculo, é
necessário:
- estimativa da proporção esperada de positivos ( quando este valor é superior a 50% deve ser usada a proporção de resultados negativos );
- amplitude do intervalo de confiança desejável;
- definição do intervalo de confiança ( por regra é de 95% )
N = Z * Z ( P ( 1 – P )) / (
D * D )
em que P proporção
esperada
D
semi-amplitude do intervalo de confiança
Z 1.96 (
para α = 0.05 e
Intervalo de Confiança de 95% )
Exemplo: Num estudo para
determinar a sensibilidade de um teste, espera-se que 80% dos doentes
com a doença,
sejam positivos
Qual o tamanho
da amostra de indivíduos doentes para se estimar uma sensibilidade
do
teste de 80% (
1 ) com um intervalo de confiança de 95% ( 3 ) e precisão de 0.04
( 2 )?
Considerando as 3 premissas
necessárias para o estudo da amostra, temos que:
- Proporção esperada de casos com doença e teste positivo = 0.20 ( 80% [ 1 ] é superior a 50%, pelo que se usa o valor dos negativos que é de 20% )
- Espectro do intervalo de confiança = 0.08. Usa-se a semi-amplitude ( 0.04 [ 2 ] acima ou 0.04 [ 2 ] abaixo ) como erro máximo aceitável
- Intervalo de confiança de 95% ( 3 )
- Substituindo as variáveis da fórmula pelos valores numéricos, obtemos
N = 1.96 * 1.96 (
0.20 ( 1 – 0.20 )) / ( 0.04 * 0.04 ) = 384 doentes
Na determinação do tamanho da
amostra para a especificidade do teste os procedimentos são os
mesmos
Exemplo: se se espera 90% de
negatividades para um teste, 216 indivíduos deveriam ser a amostra
para termos uma
especificidade de 90% ± 0.04 com
um IC = 95%
Erro
sistemático:
os viés mais comuns são os de amostragem, de medida do teste e de
relato dos resultados
- Viés de amostragem é um tipo de erro no qual a amostra estudada não é representativa da população alvo, como acontece, por exemplo, quando a amostra é feita em serviços de referência que tende assim a incluir pessoas com maior probabilidade de positividade do teste do que a população em geral, dando resultados com aumento de sensibilidade do teste. Também a amostra apresentará viés de amostragem, com aumento de especificidade, se houver um número aumentado de negativos comparativamente com o normal da população em geral. Para minimizar este viés, deve a amostra ser de indivíduos que semelhem a globalidade da população à qual o teste será aplicado. A escolha de uma população com prevalência de resultados positivos leva a valor preditivo positivo sobreestimado.
- Viés de mensuração: o investigador deverá desconhecer quais os indivíduos que são positivos, ou negativos, para evitar vícios de interpretação. O ponto de corte deve ser definido antes da interpretação do teste.
- ~Viés de publicação: dado haver tendência a publicar apenas os estudos com “ sucesso “, isto leva a um bias de literatura. Para minimizar este viés de publicação, os estudos devem seguir um planeamento com um número suficiente de indivíduos para os resultados serem credíveis e devidamente publicados.
Princípios básicos de
avaliação dum teste diagnóstico
Dois aspectos devem estar
incluídos:
- princípio de aleatorização e mascaramento
- levar em conta a prática clínica vigente
Estudos para determinar a
validade dum teste incluem a variável preditiva ( resultado do teste
) e a variável efeito ( presença ou ausência da doença ).