▷ Sabiduría mensual que puede leer en pocos minutos. Añada nuestra revista gratuita a su bandeja de entrada.

Evaluación del Desempeño

▷ Regístrate Gratis a Nuestra Revista

Algunos beneficios de registrarse en nuestra revista:

  • El registro te permite consultar todos los contenidos y archivos de Lawi desde nuestra página web y aplicaciones móviles, incluyendo la app de Substack.
  • Registro (suscripción) gratis, en 1 solo paso.
  • Sin publicidad ni ad tracking. Y puedes cancelar cuando quieras.
  • Sin necesidad de recordar contraseñas: con un link ya podrás acceder a todos los contenidos.
  • Valoramos tu tiempo: Recibirás sólo 1 número de la revista al mes, con un resumen de lo último, para que no te pierdas nada importante
  • El contenido de este sitio es obra de 23 autores. Tu registro es una forma de sentirse valorados.

Evaluación del Desempeño

Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema.

🙂 ▷ Ciencias Sociales y Humanas » Inicio de la Plataforma Digital » E » Evaluación del Desempeño
En otras partes sobre este ámbito (como aquí, aquí o aquí) se pretendía que la evaluación del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) en el aprendizaje automático fuera un asunto bastante sencillo. Basta con aplicar el clasificador inducido a un conjunto de ejemplos cuyas clases se conocen, y luego contar el número de errores que el clasificador ha cometido.Entre las Líneas En realidad, las cosas no son tan simples. La tasa de error raramente pinta el cuadro completo, y hay situaciones en las que incluso puede ser engañoso. Por eso el ingeniero concienzudo quiere conocer otros criterios para evaluar el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los clasificadores. Este conocimiento le permitirá elegir el que mejor capte los aspectos de comportamiento de interés.

Hasta aquí la evaluación de los clasificadores. Algo diferente es la cuestión de cómo comparar la idoneidad de las técnicas alternativas de aprendizaje automático para la inducción en un dominio determinado. Dividir el conjunto de ejemplos preclasificados al azar en dos subconjuntos (uno para la inducción, el otro para la prueba) puede no ser lo mejor, especialmente si el conjunto de formación es pequeño; la división aleatoria puede entonces dar lugar a subconjuntos que no representen adecuadamente el dominio dado. Para obtener resultados más fiables, es necesario repetir las ejecuciones aleatorias.

En el presente texto se abordan ambas cuestiones, explicando criterios alternativos para cuantificar el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los clasificadores y luego se examinan algunas estrategias utilizadas comúnmente en la evaluación experimental de los algoritmos de aprendizaje por máquina. La cuestión de la evaluación estadística de los resultados queda relegada a otra parte de esta plataforma.

Observaciones históricas

La mayoría de los criterios de rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) que se examinan en el presente texto están bien establecidos en la literatura estadística, y se han utilizado durante tanto tiempo que es difícil determinar su origen. La excepción es la relativamente reciente gmean que fue propuesta con este fin por Kubat y otros.

La idea de rechazar la clasificación de ejemplos en los que el clasificador k-NN no puede basarse en una mayoría significativa fue propuesta por Hellman y posteriormente analizada por Louizou y Maybank. El principio de validación cruzada de 5 × 2 fue sugerido, y explorado experimentalmente, por Dietterich. El teorema de la no-libertad fue publicado por Wolpert.

Visión General

Cuando las pruebas de cualquier clase no son suficientemente sólidas, el clasificador debe rechazar mejor el ejemplo para evitar el peligro de una costosa clasificación errónea. La tasa de rechazo se convierte entonces en otro criterio importante para la evaluación del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de la clasificación. (Tal vez sea de interés más investigación sobre el concepto). Una tasa de rechazo más elevada suele significar una tasa de error más baja; sin embargo, más allá de cierto punto, la utilidad del clasificador se degradará.

▷ En este Día de 25 Abril (1809): Firma del Tratado de Amritsar
Charles T. Metcalfe, representante de la Compañía Británica de las Indias Orientales, y Ranjit Singh, jefe del reino sij del Punjab, firmaron el Tratado de Amritsar, que zanjó las relaciones indo-sijas durante una generación.

Los criterios menos comunes para el desempeño de la clasificación incluyen la sensibilidad, la especificidad y el gmean.

En los ámbitos en que un ejemplo puede pertenecer a más de una clase al mismo tiempo, el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) se evalúa a menudo mediante un promedio de los rendimientos (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) medidos a lo largo de las clases individuales. Se utilizan dos métodos alternativos de promediación: el micro-promedio y el macro-promedio.
Otro aspecto importante de una técnica de aprendizaje por máquina es la cantidad de ejemplos de capacitación que se necesitan para alcanzar un determinado rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de clasificación. (Tal vez sea de interés más investigación sobre el concepto). La situación se visualiza a veces mediante una curva de aprendizaje. También vale la pena que el ingeniero preste atención a los costos (o costes, como se emplea mayoritariamente en España) computacionales asociados a la inducción y a la clasificación.

Cuando se comparan técnicas alternativas de aprendizaje por máquina en dominios con un número limitado de ejemplos preclasificados, los ingenieros se basan en metodologías conocidas como submuestreo aleatorio, validación cruzada en N y validación cruzada en 5 × 2. Las versiones estratificadas de estas técnicas aseguran que cada conjunto de capacitación (y conjunto de pruebas) tenga la misma proporción de ejemplos para cada clase.

Criterios básicos de rendimiento

Comencemos con definiciones formales de la tasa de error y la exactitud de la clasificación. (Tal vez sea de interés más investigación sobre el concepto). Después de esto, veremos las consecuencias de la decisión de negarse a clasificar un ejemplo si la evidencia que favorece a la clase ganadora es débil.

Clasificación correcta e incorrecta Definamos primero cuatro cantidades fundamentales que se utilizarán a lo largo de este capítulo. Al probar un clasificador en un ejemplo cuya clase real se conoce, solo podemos encontrar los siguientes cuatro resultados diferentes: 1) el ejemplo es positivo y el clasificador lo reconoce correctamente como tal (verdadero positivo); 2) el ejemplo es negativo y el clasificador lo reconoce correctamente como tal (verdadero negativo); 3) el ejemplo es positivo, pero el clasificador lo etiqueta como negativo (falso negativo); y 4) el ejemplo es negativo, pero el clasificador lo etiqueta como positivo (falso positivo).

Al aplicar el clasificador a un conjunto completo de ejemplos (cuyas clases reales se conocen), cada uno de estos cuatro resultados se producirá un número diferente de veces, y estos números se emplean luego en los criterios de rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) definidos a continuación. (Tal vez sea de interés más investigación sobre el concepto).

Rechazo de un ejemplo

Al examinar el problema del reconocimiento óptico de caracteres ya se ha sugerido que a veces se debería permitir que el clasificador se negara a clasificar un ejemplo si las pruebas que apoyan la clase ganadora no son suficientemente sólidas. La motivación es bastante simple: en algunos dominios, la pena por clasificación errónea puede ser mucho mayor que la pena por no hacer ninguna clasificación.

Un ejemplo ilustrativo no es difícil de encontrar. Así, la consecuencia de la negativa de un clasificador a devolver el valor preciso del código postal es que la decisión de dónde debe enviarse la carta tendrá que ser tomada por un operador humano. Sin duda, este procesamiento manual es más caro que el automático, pero no excesivamente. Por otra parte, un valor incorrecto devuelto por el clasificador hace que la carta sea enviada a un destino equivocado, lo que puede causar un grave retraso en la entrega. Este último costo (o coste, como se emplea mayoritariamente en España) suele ser mucho más elevado que el costo (o coste, como se emplea mayoritariamente en España) de la lectura “manual”. Del mismo modo, un diagnóstico médico incorrecto suele ser más costoso que no tener ningún diagnóstico; la falta de conocimiento puede remediarse con pruebas adicionales, pero un diagnóstico erróneo puede dar lugar a que se elija un tratamiento que haga más daño que bien.

Por ello, el clasificador debe negarse a veces a clasificar un ejemplo si las pruebas que favorecen a cualquiera de las dos clases son insuficientes.Entre las Líneas En algunos paradigmas (sistema de creencias, reglas o principios) de aprendizaje automático, el término evidencia insuficiente es fácil de definir.

En los clasificadores bayesianos, la técnica también es fácil de aplicar. Si la diferencia entre las probabilidades de las dos clases más fuertemente apoyadas no llega a un mínimo especificado por el usuario, el ejemplo se rechaza por ser demasiado ambiguo para clasificar. Algo similar puede hacerse también en las redes neuronales: comparar las señales devueltas por las correspondientes neuronas de salida y rechazar la clasificación si no hay un ganador claro.

En otros clasificadores, como los árboles de decisión, la implementación del mecanismo de rechazo no es tan sencilla, y solo es posible mediante la implementación de “trucos adicionales”.

Ventajas y desventajas de un rechazo de clasificación

El clasificador que ocasionalmente se niega a tomar una decisión sobre la clase de un ejemplo tiene, por supuesto, menos probabilidades de equivocarse. No es de extrañar que su tasa de error sea menor. De hecho, cuantos más ejemplos se rechacen, menor será la tasa de error.Si, Pero: Pero no hay que exagerar la cautela. Puede parecer algo bueno que la tasa de error se reduzca casi a cero.Si, Pero: Pero si esta baja tasa se logra solo gracias a la negativa a clasificar casi todos los ejemplos, el clasificador se vuelve impracticable. Cuál de estos dos aspectos (baja tasa de error frente a clasificaciones raras) desempeña un papel más importante dependerá de las circunstancias concretas de la aplicación dada.

▷ Lo último (abril 2024)

Precisión y recuerdo

En algunas aplicaciones, los ejemplos negativos superan a los positivos por un amplio margen. Cuando esto ocurre, la tasa de error ofrece una imagen engañosa del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de la clasificación. (Tal vez sea de interés más investigación sobre el concepto). Para ver por qué, basta con considerar el caso en el que solo el 2% de todos los ejemplos son positivos, y todo el 98% restante son negativos. Un “clasificador” que devuelve la clase negativa para cualquier ejemplo del conjunto será correcto el 98% de las veces, lo que puede parecer una hazaña notable.

Basado en la experiencia de varios autores, mis opiniones y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características y el futuro de esta cuestión):

Puntualización

Sin embargo, el lector estará de acuerdo en que un clasificador que nunca reconoce un ejemplo positivo es inútil.

Clases desequilibradas revisadas Esta observación vale la pena tenerla en cuenta porque los dominios con clases desequilibradas son bastante comunes. Así, en la recuperación de información automatizada, el usuario puede querer encontrar un documento científico que trate de, digamos, “evaluación del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los clasificadores”. Por más atractivo que el tema pueda parecer a esta persona en particular, los documentos que se ocupen de él representarán solo una pequeña fracción de los millones de documentos disponibles en la biblioteca digital. Del mismo modo, los pacientes que padecen un trastorno médico específico son relativamente raros en toda la población. (Tal vez sea de interés más investigación sobre el concepto). Y lo mismo cabe decir de cualquier empresa que trate de reconocer un hecho poco frecuente como el incumplimiento de los pagos de una hipoteca o el uso fraudulento de una tarjeta de crédito. Un ingeniero experimentado llegará a decir que la mayoría de las aplicaciones realistas están en cierto grado marcadas por el fenómeno de las clases desequilibradas.

En dominios de este tipo, la tasa de error y la precisión de la clasificación difícilmente nos dirá nada razonable sobre la utilidad práctica del clasificador.Entre las Líneas En lugar de promediar el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) sobre ambas (o todas) las clases, necesitamos criterios que se centren en una clase que, si bien es importante, está representada por solo unos pocos ejemplos.

Curvas de aprendizaje y costos (o costes, como se emplea mayoritariamente en España) computacionales

Las primeras secciones de este texto trataron del problema de la evaluación del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de los clasificadores inducidos. Centrémonos ahora en la evaluación del propio algoritmo de aprendizaje. ¿Qué tan eficiente es la técnica de inducción dada computacionalmente? ¿Y qué tan buenos son los clasificadores que induce? ¿Se obtendrán mejores resultados si elegimos otro marco de aprendizaje por máquina?

En esta sección, reflexionaremos sobre los costos (o costes, como se emplea mayoritariamente en España) del aprendizaje en términos del número de ejemplos necesarios para una inducción exitosa, así como en términos del tiempo computacional consumido. El otro aspecto, la capacidad de inducir una herramienta con un alto rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de clasificación se abordará en la siguiente sección.

La curva de aprendizaje Al evaluar la capacidad de un sujeto humano para aprender a resolver un determinado problema, los psicólogos se basan en una curva de aprendizaje, noción que el aprendizaje automático ha tomado prestada para sus propios fines.

Desde nuestra perspectiva, la curva de aprendizaje simplemente muestra cómo el rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de la clasificación del clasificador inducido depende del tamaño del conjunto de entrenamiento. El eje horizontal representa el número de ejemplos de entrenamiento; y el eje vertical representa la precisión de clasificación del clasificador inducido a partir de estos ejemplos. Normalmente, aunque no siempre, esta precisión de clasificación se evalúa en ejemplos de pruebas independientes.

La mayoría de las veces, un conjunto de entrenamiento más grande significa un rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) de clasificación más alto, por lo menos hasta el momento en que no es posible una mejora adicional. Idealmente, nos gustaría lograr el máximo rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) con el conjunto de entrenamiento más pequeño posible. Por un lado, los ejemplos de entrenamiento pueden ser caros de obtener, y su fuente puede ser limitada sin importar cuánto estemos dispuestos a gastar en ellos.

Otros Elementos

Por otro lado, cuantos más ejemplos utilicemos, más altos serán los costes (o costos, como se emplea mayoritariamente en América) computacionales de la inducción.

Comparación de alumnos con diferentes curvas de aprendizaje

Cuál de las dos curvas indica un aprendizaje preferible depende de las circunstancias de la aplicación dada. Cuando la fuente de los ejemplos de capacitación es limitada, el primer aprendiz es claramente más apropiado. Si los ejemplos son abundantes, preferiremos al otro aprendiz, suponiendo, por supuesto, que los costes (o costos, como se emplea mayoritariamente en América) de cálculo no sean prohibitivos.

Costos computacionales Los costos (o costes, como se emplea mayoritariamente en España) computacionales tienen dos aspectos. El primero es el tiempo necesario para la inducción del clasificador a partir de los datos disponibles. El segundo es el tiempo que se tarda en clasificar un conjunto de ejemplos con el clasificador así inducido.

En esta línea, las técnicas descritas en este libro cubren un espectro bastante amplio.Entre las Líneas En cuanto a los costos (o costes, como se emplea mayoritariamente en España) de inducción, el más barato es la versión básica del clasificador k-NN: el único “cómputo” que implica es el almacenamiento de los ejemplos de formación. (Tal vez sea de interés más investigación sobre el concepto). Por ejemplo, si tenemos un millón de ejemplos de formación, cada uno de ellos descrito por diez mil atributos, habrá que realizar decenas de miles de millones de operaciones aritméticas para clasificar un solo ejemplo. Cuando se pide que se clasifiquen millones de ejemplos, incluso una computadora muy rápida tardará bastante tiempo.

La situación es diferente en el caso de los árboles de decisión. (Tal vez sea de interés más investigación sobre el concepto). Estos son baratos cuando se utilizan para clasificar ejemplos: normalmente solo se necesita un número moderado de pruebas de un solo atributo.

Puntualización

Sin embargo, la introducción de los árboles de decisión puede llevar mucho tiempo si se dispone de muchos ejemplos de capacitación descritos por muchos atributos.
Los costos (o costes, como se emplea mayoritariamente en España) de inducción y los costos (o costes, como se emplea mayoritariamente en España) de clasificación de los otros clasificadores varían, y el ingeniero está bien aconsejado de considerar estos costos (o costes, como se emplea mayoritariamente en España) al elegir el paradigma (modelo, patrón o marco conceptual, o teoría que sirve de modelo a seguir para resolver alguna situación determinada) de aprendizaje automático más apropiado para la aplicación dada. Igualmente importante es una sólida comprensión de cómo estos costos (o costes, como se emplea mayoritariamente en España) dependen del número de ejemplos de capacitación, del número de atributos que los describen y, a veces, también de la precisión requerida (por ejemplo, en el caso de las redes neuronales).

Metodologías de evaluación experimental

El lector comprende que diferentes dominios se beneficiarán de diferentes técnicas de inducción. (Tal vez sea de interés más investigación sobre el concepto). La elección no suele ser difícil de hacer. Algunos conocimientos de los datos de capacitación disponibles suelen ayudarnos a elegir el paradigma (modelo, patrón o marco conceptual, o teoría que sirve de modelo a seguir para resolver alguna situación determinada) más adecuado; por ejemplo, si se sospecha que un alto porcentaje de los atributos es irrelevante, es probable que los árboles de decisión tengan más éxito que un clasificador de vecino más cercano.
Sin embargo, el éxito de una técnica determinada también depende de los valores de diversos parámetros. Aunque incluso aquí pueden ayudar ciertas reglas generales probadas por el tiempo, el mejor ajuste de los parámetros se encuentra normalmente solo mediante la experimentación.

Enfoque de la línea base y sus limitaciones El escenario básico es simple. El conjunto de ejemplos preclasificados se divide en dos subconjuntos, uno utilizado para la formación, el otro para la prueba. La sesión de prueba de entrenamiento se repite para diferentes ajustes de parámetros, y luego se elige el que resulta en el mayor rendimiento.

Sin embargo, esto solo puede hacerse si se dispone de un gran número de ejemplos preclasificados.Entre las Líneas En los dominios en los que los ejemplos son escasos, o caros de obtener, una división aleatoria en un par de los conjuntos de entrenamiento y prueba carecerá de objetividad. Cualquiera de los dos conjuntos puede, por mera casualidad, tergiversar adecuadamente el dominio dado. Los estadísticos nos dicen que tanto el conjunto de entrenamiento como el conjunto de pruebas deberían tener más o menos la misma distribución de ejemplos.Entre las Líneas En conjuntos pequeños, por supuesto, esto no puede garantizarse.

Submuestreo aleatorio

Cuando el conjunto de ejemplos preclasificados es pequeño, el ingeniero suele preferir repetir el procedimiento de entrenamiento y prueba varias veces.Entre las Líneas En cada ejecución, el conjunto de ejemplos se divide aleatoriamente en dos partes, una para el entrenamiento y la otra para la prueba. Los rendimientos (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) medidos se registran y luego se promedian. Hay que tener cuidado de que las partes de datos individuales sean mutuamente independientes.

El teorema del no-almuerzo gratis

Sería tonto esperar que alguna técnica de aprendizaje a máquina sea un santo grial, un mecanismo que se prefiera en todas las circunstancias. No existe nada como esto. El lector ya comprende que cada paradigma (modelo, patrón o marco conceptual, o teoría que sirve de modelo a seguir para resolver alguna situación determinada) tiene sus ventajas que lo hacen tener éxito en algunos dominios y sus defectos que lo hacen fracasar miserablemente en otros. Sólo los experimentos sistemáticos pueden decirle al ingeniero qué tipo de clasificador, y qué algoritmo de inducción, debe seleccionar para la tarea en cuestión. (Tal vez sea de interés más investigación sobre el concepto). La verdad es que ningún enfoque de aprendizaje por máquina superará a todos los demás enfoques de aprendizaje por máquina en todas las circunstancias.

Los matemáticos han sido capaces de demostrar la validez de esta afirmación con una prueba rigurosa. El resultado se conoce con el nombre (un tanto extravagante) de “teorema del no-almuerzo gratis”. (Nota: Un teorema matemático relacionado es el “Teorema de la amistad”)

Datos verificados por: LI

Evaluación del desempeño

Recursos

[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]

Véase También

Minería de aprendizaje profundo
Aprendizaje no supervisado
Aprendizaje profundo
Dinámica de sistemas
Gestión de los riesgos del comportamiento
Motivación de los empleados
Prueba de integridad de empleo
Derecho laboral
Desarrollo de los recursos humanos
Gestión de los recursos humanos
Psicología industrial y organizacional
Sociología industrial
Análisis del trabajo
Satisfacción del trabajo
Compromiso de la organización
Socialización organizativa
La paradoja del rendimiento
Clasificación del rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) (medición del trabajo)
Psicología del personal
Selección de personal
Calidad de la vida laboral
Psicología de sistemas
Motivación del trabajo
Inteligencia artificial
Inteligencia computacional
Internet de las cosas
Sistema dinámico
Recursos humanos, Evaluación, Lugar de trabajo
Minería de datos
Reconocimiento de patrones
Reglas de asociación
Robot autónomo
Sistema complejo
Representación del conocimiento
Equidad (aprendizaje automático)
Análisis predictivo – Técnicas estadísticas que analizan los hechos para hacer predicciones sobre eventos desconocidos
El aprendizaje de las máquinas cuánticas
Aplicaciones del aprendizaje a máquina en bioinformática
Seq2seq
Equidad (aprendizaje automático)

Ciencias de la computación, minería de datos, Descubrimiento de conocimientos, Grandes datos, Análisis de datos, inteligencia computacional, Inteligencia artificial, Visión por computadora, Evaluación de puestos de trabajo, Desarrollo personal, Psicología industrial, Psicología organizacional, Cibernética, Aprendizaje, Aprendizaje Profundo, Algoritmos de clasificación, Estadística computacional, Neurociencia computacional, Investigación de mercado, Segmentación de mercado, Psicología matemática, Métodos económicos matemáticos, Métodos económicos cuantitativos

▷ Esperamos que haya sido de utilidad. Si conoce a alguien que pueda estar interesado en este tema, por favor comparta con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.

1 comentario en «Evaluación del Desempeño»

  1. La entrada muestra las curvas de aprendizaje de dos alumnos, l1 y l2. El lector puede ver que la curva de aprendizaje de la primera, l1, aumenta muy rápidamente, sólo para nivelarse en un punto más allá del cual prácticamente no es posible ninguna mejora: la limitación puede ser impuesta por un sesgo incorrecto (véase la entrada). En cambio, la curva de aprendizaje del segundo, l2, no crece tan rápido, sino que al final alcanza niveles de precisión superiores a l1.

    Responder

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Descubre más desde Plataforma de Derecho y Ciencias Sociales

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo