ESTIMACION DE LA EXACTITUD DE UNA CLASIFICACION - MATRIZ DE CONFUSION

9.3.3 Estimación de la exactitud de una clasificación: Matriz de confusión. En un sentido estricto ninguna clasificación puede considerarse completa hasta que su grado de exactitud sea evaluado. Este puede definirse como el grado de concordancia entre las clases asignadas por el clasificador y sus ubicaciones correctas según datos de tierra recolectados por el usuario y considerados como datos de referencia.a tomar como referencia el conjunto de datos de entrenamiento, aunque obviamente este procedimiento conduce a sobreestimar la exactitud de la  clasificación. Este procedimiento constituiría en realidad sólo una evaluación de la calidad de selección de las áreas de entrenamiento. También podría recurrirse a una validación cruzada basada en comparaciones con los resultados de otros clasificadores. 

El instrumento más usual para evaluar la exactitud de una clasificación es la matriz de  confusión, también llamada matriz de error o de contingencia. Esta es una matriz cuadrada  de n x n, donde n es el número de clases. Dicha matriz muestra la relación entre dos series  de medidas correspondientes al área en estudio. La primera serie corresponde a datos de  referencia adquiridos de observaciones de campo, inspección de estadísticas agrícolas,  interpretación de fotos aéreas y otras fuentes similares. La segunda corresponde a la  categorización de los pixeles realizada por el clasificador para las clases de interés. En una  matriz de confusión las columnas corresponden a los datos de referencia, mientras que las  filas corresponden a las asignaciones del clasificador. 
A partir de una matriz de confusión pueden deducirse varios índices relativos a la exactitud  de la clasificación. Para definir y comentar dichos índices calcularemos, computadora y  software mediante, la matriz de confusión para la escena LANDSAT de la Fig.80 a.

Dicha escena corresponde a un área pequeña al norte de la ciudad de San Pedro, Jujuy, Rep. Arg. registrada en noviembre de 2005. Clasificamos la imagen por el método supervisado utilizando el algoritmo de las mínimas distancias. Las áreas de entrenamiento para coberturas terrestres de interés las definimos en base al examen de las combinaciones RGB color natural y falso infrarrojo apoyados por el análisis de los perfiles espectrales. Las áreas de entrenamiento corresponden a las siguientes regiones: 

1. Forestación 
2. Cerros sin vegetación 
3. Cultivos 
4. Areas no cultivadas 

Puesto que no teníamos suficiente información terrestre para ser empleada como referencia 
en la evaluación de la exactitud de dicha clasificación, efectuamos paralelamente una  clasificación supervisada utilizando el algoritmo de máxima probabilidad y declarándola (a efectos del presente ejercicio) nuestra fuente de datos de referencia, es decir nuestra verdad  terrestre. Las imágenes clasificadas por ambos métodos se presentan en las Figs. 80 b y c. 
Calculada la matriz los resultados se exponen en la Fig. 81.

Fig. 81 – Tabla de valores de la matriz de confusión

 

<< PAGINA ANTERIOR - INDICE DEL TUTORIAL - PAGINA SIGUIENTE >>