Avaliação
de testes diagnósticos
Estudos
estatísticos
A
avaliação de testes diagnósticos, por métodos estatísticos, é
uma condição importante, quer sob o ponto de vista epidemiológico
quer sob o ponto de vista de investigação clínica. O desempenho
dum teste está dependente da presença ou ausência de desvio em
relação à realidade, denominado como “ausência de viés”,
e de precisão do teste, em que o mesmo teste realizado na
mesma amostra deverá dar o mesmo resultado, ou seja, o desempenho do
teste depende da validade e da reprodutibilidade do teste em causa.
Reprodutibilidade
ou repetibilidade dum teste é a propriedade estatística da
consistência dos resultados quando o exame é realizado
repetidamente; o facto de um teste ter uma óptima reprodutibilidade
não significa que esteja correcto, pois o resultado pode ser
reprodutível e errado;
Validade
ou acurácia é a propriedade
estatística do grau do teste, ou estimativa baseada nesse teste,
determinar o valor verdadeiro do que está a ser mensurado; a
validade determina se um teste está a mensurar o valor verdadeiro
ou quanto se afasta dele;
Relação
entre precisão e acurácia é
a relação entre o valor verdadeiro de uma determinação
quantitativa e o valor determinado pelo teste em termos de alta ou
baixa validade e reprodutibilidade.

Esta
relação precisão/acurácia é importante na determinação da
validade do teste. Um teste com uma reprodutibilidade baixa, mas em
que a média de valores se encontra próxima do valor verdadeiro,
determina que o teste pode ser válido mas com pouca utilidade. Por
outro lado, um teste com uma reprodutibilidade alta não significa
que os valores obtidos sejam correctos, pois os valores podem estar
longe da vida real.
É fundamental, para separar doentes de sadios, com base
nos resultados de um teste, a validade e a reprodutibilidade serem
mensurados de forma adequada.
Reprodutibilidade,
repetibilidade ou precisão é
a propriedade do teste capaz de produzir resultados consistente
quando realizados de forma independente e sob as mesmas condições
de trabalho.
Melhores
resultados de reprodutibilidade são alcançados no trabalho de
laboratório com condições controladas de trabalho. Um baixo nível
de reprodutibilidade atenua as verdadeiras correlações entre os
eventos, limitando a utilidade de diagnóstico clínico. A avaliação
de reprodutibilidade serve para verificar a concordância de
resultados entre leituras dum mesmo evento ou para comparar métodos
diferentes de diagnóstico e dessa forma avaliar o erro na aferição.
A comparação dos resultados pode ser apresentada através da taxa
global de concordância entre examinadores ou pelo indicador
k.
Índice
k (
k )
é
uma forma muito comum de exprimir a confiabilidade de um teste sendo
um avanço comparativamente à taxa geral de concordância, pois é
um indicador ajustado levando em conta a concordância devida ao
acaso ou chance
O
k
dá a proporção de concordância não devida à chance, ou não
aleatória ( além da esperada pela chance ) variando entre “ menos
1 “ ( completamente desacordo ) e “ mais 1 “ ( acordo total ).
Se a medida concorda de forma mais frequente do que o esperado pela
chance, o valor de k
é superior a zero; um zero para k
indica que as leituras são iguais às feitas ao acaso.
Como
se determina o valor k?
Exemplo: foram vistas 120 lâminas por 2 observadores; o 1º
identificou 20 resultados positivos e
100 negativos enquanto o 2º observador
identificou 30 resultados positivos e 90
negativos, gerando 106 resultados concordantes ( 18
+ 88 ) e 14 discordantes ( 2 + 12 ).
A
taxa geral de concordância foi de 88.3% ( 106/120 ) e o valor k
de 65%.
K
é
obtido pela fórmula
K = (Po – Pe ) / ( 1 – Pe )
em que Po são as concordâncias
observadas
Pe são as
concordâncias esperadas
Po = ( a + b ) / ( a + b + c + d )
Pe
= { [ ( a + b ) ( a + c ) ] + [ ( c + d ) ( b + d ) ] } / ( a + b + c
+ d )²
Na interpretação de k deve
ter-se em consideração:
tipo
de evento e outros factores:
o nível de concordância é dependente de várias permissas,
nomeadamente tipo de evento, factores que se relacionam com o
examinador, factores relacionados com o procedimento e factores que
se relacionam com o ambiente onde se realizam os testes. A
concordância varia na relação inversa com o número de categorias
de resultados ( valores positivo/negativo em comparação com valor
alto/médio/intermédio/baixo, por exemplo );
prevalência:
a prevalência na população tem repercussão no resultado final e
tende a variar paralelamente, a prevalência com o nível de
reprodutibilidade, pois o k depende da concordância que é devida
ao acaso. Por este facto, a prevalência de evento deve ser
fornecida aquando do fornecimento do valor k;
independência
da avaliação:
as avaliações devem ser independentes umas das outras e esta
independência também tem de ser aplicada à verificação
validade/acurácia
Validade de um teste
diagnóstico
A validade de um teste refere-se
ao quanto um teste tem utilidade para diagnosticar um determinado
evento ( validade simultânea ou concorrente ) ou para predizer esse
evento ( validade preditiva ), seja em termos quantitativos ou
qualitativos.
Para determinar a validade,
compara-se os resultados do teste em estudo com os de um teste padrão
( padrão ouro ).
Sensibilidade e especificidade
Os melhores testes são aqueles
que menos resultados falsos positivos e falsos negativos apresentam
Com base nestes resultados do
quadro, temos que:
Sensibilidade
a / ( a + c )
Especificidade
d / ( b + d )
Prevalência ( real )
( a + c ) / N
Prevalência estimada ( teste )
( a + b ) / N
Valor Preditivo Positivo ( VPP )
a / ( a + b )
Valor Preditivo Negativo ( VPN )
d / ( c + d )
Classificação correcta (
acurácia ) ( a + d ) / N
Classificação incorrecta
( b + c ) / N
Daqui se pode afirmar que:
Sensibilidade é a
capacidade do teste de detectar os verdadeiros positivos
Especificidade é
a capacidade do teste de determinar quais os verdadeiros negativos
Co-positividade e
co-negatividade são as
designações que se usam em substituição, respectivamente, de
sensibilidade e especificidade, nas situações em que se usa outro
teste considerado referência e não os diagnósticos de certeza (
usado nos casos de sensibilidade e especificidade ). Co-positividade
e co-negatividade também se designam de sensibilidade relativa e
especificidade relativa
Ponte de corte dos resultados
positivos: teste com 100% de
sensibilidade e de especificidade raramente existe, pois
aumentando-se a sensibilidade diminui-se a especificidade e
vice-versa. Na defenição de ponto de corte tem de se levar em
consideração a importância relativa da sensibilidade e
especificidade do teste.
Valor preditivo é
o valor de um teste em predizer o ocorrência de doença e responde
à questão:” Com o teste positivo ( ou negativo ), qual a
probabilidade do sujeito estar na verdade doente ( ou saudável ) ?
“. Esta característica do teste é denominada de Valor Preditivo
Positivo ( ou Negativo ) e é obtida pela interacção de 3
variáveis: sensibilidade, especificidade e prevalência do evento
Valor Preditivo Positivo
designa a proporção de
indivíduos doentes entre os testes positivos
Valor Preditivo Negativo
designa a proporção de
indivíduos saudáveis entre os testes negativos
Relação entre Valor
Preditivo e Prevalência:
sensibilidade e especificidade são propriedades inerentes ao teste,
apenas variando por erros técnicos, enquanto que os VPs dependem da
prevalência, aumentando o VPP paralelamente à prevalência
enquanto que o VPN tem uma relação inversa com a prevalência.
Os resultados falsos positivos e
falsos negativos podem minimizar pela combinação de testes em
paralelo ( 2 ou mais testes realizados simultâneamente ) ou em série
( 2 ou mais testes realizados em sequência ) para a determinação
do resultado positivo.
Para aumentar a especificidade (
reduzir falsos positivos ), o resultado apenas é considerado
positivo se, pelo menos, 2 testes forem positivos; para aumentar a
sensibilidade ( reduzir os falsos negativos ) considera-se que basta
um único teste positivo como suficiente para o diagnóstico ser
positivo.
Erro sistemático e erro
aleatório na determinação da sensibilidade e especificidade
Erro aleatório é o erro que
pode ocorrer por acaso, sendo avaliado pelo cálculo de intervalo de
confiança para a sensibilidade e especificidade do teste.
O intervalo de confiança indica
o leque de variação dos resultados obtidos para se poderem comparar
com os testes convencionais.
Para minimizar os erros
aleatórios, deve-se estimar o tamanho da amostra necessário para
determinar a validade do teste baseado na construção de intervalos
de confiança, devendo-se definir os valores da sensibilidade e
especificidade do teste, o que significa que temos de obter um
tamanho da amostra para a sensibilidade e outro ( que pode ser ou não
igual ) para a especificidade.
Como se determina o tamanho da
amostra para a sensibilidade e especificidade
Para este cálculo, é
necessário:
estimativa da proporção
esperada de positivos ( quando este valor é superior a 50% deve ser
usada a proporção de resultados negativos );
amplitude do intervalo de
confiança desejável;
definição do intervalo de
confiança ( por regra é de 95% )
N = Z * Z ( P ( 1 – P )) / (
D * D )
em que P proporção
esperada
D
semi-amplitude do intervalo de confiança
Z 1.96 (
para α = 0.05 e
Intervalo de Confiança de 95% )
Exemplo: Num estudo para
determinar a sensibilidade de um teste, espera-se que 80% dos doentes
com a doença,
sejam positivos
Qual o tamanho
da amostra de indivíduos doentes para se estimar uma sensibilidade
do
teste de 80% (
1 ) com um intervalo de confiança de 95% ( 3 ) e precisão de 0.04
( 2 )?
Considerando as 3 premissas
necessárias para o estudo da amostra, temos que:
Proporção esperada de casos
com doença e teste positivo = 0.20 ( 80% [ 1 ] é superior a 50%,
pelo que se usa o valor dos negativos que é de 20% )
Espectro do intervalo de
confiança = 0.08. Usa-se a semi-amplitude ( 0.04 [ 2 ] acima ou
0.04 [ 2 ] abaixo ) como erro máximo aceitável
Intervalo de confiança de 95% (
3 )
Substituindo as variáveis da
fórmula pelos valores numéricos, obtemos
N = 1.96 * 1.96 (
0.20 ( 1 – 0.20 )) / ( 0.04 * 0.04 ) = 384 doentes
Na determinação do tamanho da
amostra para a especificidade do teste os procedimentos são os
mesmos
Exemplo: se se espera 90% de
negatividades para um teste, 216 indivíduos deveriam ser a amostra
para termos uma
especificidade de 90% ± 0.04 com
um IC = 95%
Erro
sistemático:
os viés mais comuns são os de amostragem, de medida do teste e de
relato dos resultados
Viés
de amostragem
é um tipo de erro no qual a amostra estudada não é representativa
da população alvo, como acontece, por exemplo, quando a amostra é
feita em serviços de referência que tende assim a incluir pessoas
com maior probabilidade de positividade do teste do que a população
em geral, dando resultados com aumento de sensibilidade do teste.
Também a amostra apresentará viés de amostragem, com aumento de
especificidade, se houver um número aumentado de negativos
comparativamente com o normal da população em geral. Para
minimizar este viés, deve a amostra ser de indivíduos que
semelhem a globalidade da população à qual o teste será
aplicado. A escolha de uma população com prevalência de
resultados positivos leva a valor preditivo positivo sobreestimado.
Viés
de mensuração:
o investigador deverá desconhecer quais os indivíduos que são
positivos, ou negativos, para evitar vícios de interpretação. O
ponto de corte deve ser definido antes da interpretação do teste.
~Viés
de publicação:
dado haver tendência a publicar apenas os estudos com “ sucesso
“, isto leva a um bias de literatura. Para minimizar este viés de
publicação, os estudos devem seguir um planeamento com um número
suficiente de indivíduos para os resultados serem credíveis e
devidamente publicados.
Princípios básicos de
avaliação dum teste diagnóstico
Dois aspectos devem estar
incluídos:
Estudos para determinar a
validade dum teste incluem a variável preditiva ( resultado do teste
) e a variável efeito ( presença ou ausência da doença ).