▷ Regístrate Gratis a Nuestra Revista

Algunos beneficios de registrarse en nuestra revista:

El registro te permite consultar todos los contenidos y archivos de Lawi desde nuestra página web y aplicaciones móviles, incluyendo la app de Substack.
Registro (suscripción) gratis, en 1 solo paso.
Sin publicidad ni ad tracking. Y puedes cancelar cuando quieras.
Sin necesidad de recordar contraseñas: con un link ya podrás acceder a todos los contenidos.
Valoramos tu tiempo: Recibirás sólo 1 número de la revista al mes, con un resumen de lo último, para que no te pierdas nada importante
El contenido de este sitio es obra de 23 autores. Tu registro es una forma de sentirse valorados.

Árbol de Decisión

Este elemento es una ampliación de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre este tema.

Un árbol de decisión es una operación que divide un set de datos en varios segmentos similares a ramas. Los árboles de decisión fueron aplicados primero al modelado del lenguaje por algunos autores, como Bahl, para estimar la probabilidad de las palabras habladas. Un solo nodo es el punto de partida seguido de preguntas binarias que se hacen como método para dividir arbitrariamente el espacio de las historias.

Índice de Contenidos

Introducción: el Análisis de decisiones

El análisis de decisiones, también llamado teoría estadística de decisiones, implica procedimientos para elegir decisiones óptimas ante la incertidumbre.Entre las Líneas En la situación más simple, una persona que toma decisiones debe elegir la mejor decisión de un conjunto finito de alternativas cuando hay dos o más eventos futuros posibles, llamados estados de la naturaleza, que podrían ocurrir. La lista de posibles estados de la naturaleza incluye todo lo que puede suceder, y los estados de la naturaleza se definen de manera que solo uno de los estados ocurra. El resultado que resulta de la combinación de una alternativa de decisión y un estado particular de la naturaleza se conoce como la recompensa.

Cuando se dispone de probabilidades para los estados de la naturaleza, se pueden utilizar criterios probabilísticos para elegir la mejor alternativa de decisión. (Tal vez sea de interés más investigación sobre el concepto). El enfoque más común es utilizar las probabilidades para calcular el valor esperado de cada alternativa de decisión. (Tal vez sea de interés más investigación sobre el concepto). El valor esperado de una alternativa de decisión es la suma de los reembolsos ponderados de la decisión. (Tal vez sea de interés más investigación sobre el concepto). La ponderación para un resultado final es la probabilidad del estado asociado (véase qué es, su concepto jurídico; y también su definición como “associate” en derecho anglo-sajón, en inglés) de la naturaleza y, por lo tanto, la probabilidad de que se produzca el resultado final. Para un problema de maximización, se elegirá la alternativa de decisión con el mayor valor esperado; para un problema de minimización, se elegirá la alternativa de decisión con el menor valor esperado.

El análisis de decisiones puede ser extremadamente útil en situaciones de toma de decisiones secuenciales, es decir, situaciones en las que se toma una decisión, se produce un evento, se toma otra decisión, se produce otro evento, etc. Por ejemplo, una empresa que intenta decidir si comercializar o no un nuevo producto puede decidir primero probar la aceptación del producto utilizando un panel de consumidores (examine más sobre todos estos aspectos en la presente plataforma online de ciencias sociales y humanidades). Basándose en los resultados del panel de consumidores, la empresa decidirá si procede o no con la comercialización (vender lo que se produce; véase la comercialización, por ejemplo, de productos) o/y, en muchos casos, marketing, o mercadotecnia (como actividades empresariales que tratan de anticiparse a los requerimientos de su cliente; producir lo que se vende) de pruebas; después de analizar los resultados de la comercialización (vender lo que se produce; véase la comercialización, por ejemplo, de productos) o/y, en muchos casos, marketing, o mercadotecnia (como actividades empresariales que tratan de anticiparse a los requerimientos de su cliente; producir lo que se vende) de pruebas, los ejecutivos de la empresa decidirán si producen o no el nuevo producto. Un árbol de decisión es un dispositivo gráfico que resulta útil para estructurar y analizar dichos problemas. Con la ayuda de árboles de decisión, se puede desarrollar una estrategia de decisión óptima. Una estrategia de decisión es un plan de contingencia que recomienda la mejor alternativa de decisión dependiendo de lo que ha ocurrido anteriormente en el proceso secuencial.

Revisor: Lawrence

Aprendizaje supervisado

El aprendizaje en árbol de decisión es una técnica de aprendizaje automatizado supervisado para inducir un árbol de decisión a partir de los datos de formación. (Tal vez sea de interés más investigación sobre el concepto). Un árbol de decisión (también conocido como árbol de clasificación o árbol de reducción) es un modelo predictivo que es un mapeo desde las observaciones sobre un ítem hasta las conclusiones sobre su valor objetivo.Entre las Líneas En las estructuras de árbol, las hojas representan clasificaciones (también llamadas etiquetas), los nodos no foliares son características, y las ramas representan conjunciones de características que conducen a las clasificaciones. La poda en exceso se puede utilizar para evitar que el árbol se sobreponga solo para el juego de entrenamiento. Esta técnica hace que el árbol sea general para los datos no etiquetados y puede tolerar algunos datos de entrenamiento erróneamente etiquetados.

Otras técnicas populares de aprendizaje supervisado incluyen las máquinas vectoriales de apoyo y la regresión logístic. iComment utiliza el aprendizaje en árbol de decisión para construir modelos de clasificación de comentarios. iComment utiliza el aprendizaje en árbol de decisión porque funciona bien y sus resultados son fáciles de interpretar. Es sencillo reemplazar el aprendizaje del árbol de decisiones con otras técnicas de aprendizaje. Según la experiencia de algunos autores, el aprendizaje en árbol de decisión es un buen algoritmo de aprendizaje supervisado para empezar para el análisis de comentarios y el análisis de texto en general.

▷ En este Día de 19 Abril (1775): Comienzo de la Revolución Americana

Iniciada este día de 1775 con las batallas de Lexington y Concord, la revolución americana fue un esfuerzo de las 13 colonias británicas de Norteamérica (con ayuda de Francia, España y Holanda) por conseguir su independencia.

Construir un árbol de decisión que sea consistente con un conjunto de datos dado es fácil. El desafío consiste en construir buenos árboles de decisión, que normalmente son los árboles de decisión más pequeños.

Revisor: Lawrence

Árbol de Decisión

Introducción a los árboles de decisión

Un árbol de decisión es una herramienta de apoyo a la toma de decisiones que utiliza un gráfico o modelo similar a un árbol de decisiones y sus posibles consecuencias, incluyendo los resultados de los eventos de azar, los costos (o costes, como se emplea mayoritariamente en España) de los recursos y la utilidad. Es una forma de visualizar un algoritmo que solo contiene sentencias de control condicionales.

Un árbol de decisión es una estructura de tipo diagrama de flujo en la que cada nodo interno representa una “prueba” sobre un atributo (por ejemplo, si una moneda sale cara o cruz), cada rama representa el resultado de la prueba, y cada nodo de hoja representa una etiqueta de clase (la decisión se toma después de calcular todos los atributos). Los caminos de la raíz a la hoja representan reglas de clasificación.

Los algoritmos de aprendizaje basados en árboles son considerados como uno de los mejores y más utilizados métodos de aprendizaje supervisado. Los métodos basados en árboles potencian los modelos predictivos con alta precisión, estabilidad y facilidad de interpretación. (Tal vez sea de interés más investigación sobre el concepto). A diferencia de los modelos lineales, mapean bastante bien las relaciones no lineales. Son adaptables para resolver cualquier tipo de problema (clasificación o regresión).

Detalles

Los algoritmos del Árbol de Decisión se conocen como CART (Árboles de Clasificación y Regresión).

“Las posibles soluciones a un problema surgen como las hojas de un árbol, cada nodo representa un punto de deliberación y decisión” escribió Niklaus Wirth (1934 -), Diseñador del lenguaje de programación.

Métodos como árboles de decisión, bosques aleatorios, aumento de gradientes están siendo utilizados popularmente en todo tipo de problemas de la ciencia de datos.

Términos comunes usados con los árboles de decisión:

Nodo raíz: Representa a toda la población o muestra y ésta se divide en dos o más conjuntos homogéneos.
Separarse: Es un proceso de división de un nodo en dos o más subnodos.
Nodo de decisión: Cuando un subnodo se divide en otros subnodos, se denomina nodo de decisión.
Nodo hoja/terminal: Los nodos que no se dividen se denominan Hoja o Nodo terminal.
Poda: Cuando se eliminan subnodos de un nodo de decisión, este proceso se denomina poda. Se puede decir que es un proceso opuesto al de la división.
Rama / Subárbol: Una sub-sección de todo el árbol se llama rama o subárbol.
Nodo Padre e Hijo: Un nodo, que se divide en subnodos, se denomina nodo padre de subnodos, mientras que los subnodos son hijos del nodo padre.

Solicitudes de árbol de decisión

Los árboles de decisión tienen una construcción natural “si …. entonces… si no…” que los hace encajar fácilmente en una estructura programática. También se adaptan bien a problemas de categorización en los que los atributos o características se comprueban sistemáticamente para determinar una categoría final. Por ejemplo, un árbol de decisión podría utilizarse eficazmente para determinar la especie de un animal.

Como resultado, el árbol de toma de decisiones es uno de los algoritmos de clasificación más populares que se utilizan en la minería de datos y el aprendizaje automático. Ejemplos de aplicaciones incluyen:

Evaluación de las oportunidades de expansión de la marca para un negocio utilizando datos históricos de ventas.
Determinación de los posibles compradores de un producto utilizando datos demográficos para permitir la selección de un presupuesto publicitario limitado.
Predicción de la probabilidad de incumplimiento para los prestatarios solicitantes utilizando modelos predictivos generados a partir de datos históricos..
Ayudar a priorizar el tratamiento de los pacientes en la sala de emergencias utilizando un modelo predictivo basado en factores como la edad, la presión arterial, el sexo, la ubicación y la gravedad del dolor, y otras medidas.
Los árboles de decisión se utilizan comúnmente en la investigación de operaciones, específicamente en el análisis de decisiones, para ayudar a identificar una estrategia que tenga más probabilidades de alcanzar una meta.

Debido a su simplicidad, los diagramas de árbol se han utilizado en una amplia gama de industrias y disciplinas, incluyendo planificación (véase más en esta plataforma general) civil, energía, finanzas, ingeniería, salud, farmacéutica, educación, derecho y negocios.

Funcionamiento

El árbol de decisión es un tipo de algoritmo de aprendizaje supervisado (con una variable de destino predefinida) que se utiliza principalmente en problemas de clasificación. (Tal vez sea de interés más investigación sobre el concepto). Funciona tanto para variables categóricas como para variables de entrada y salida continuas.Entre las Líneas En esta técnica, dividimos la población o muestra en dos o más conjuntos (o subpoblaciones) homogéneos basados en el divisor / diferenciador más significativo de las variables de entrada.

▷ Lo último (2024)

Lo último publicado esta semana de abril de 2024:

Agrarianismo

Filosofía Moral Agrícola

Asiria

Tipos de árboles de decisión

Los tipos de árbol de decisión se basan en el tipo de variable objetivo que tenemos. Puede ser de dos tipos:

Árbol de decisión variable categórica: Árbol de decisión que tiene una variable objetivo categórica, luego se llama árbol de decisión de variables categóricas. Por ejemplo:- En el escenario anterior del problema del estudiante, donde la variable objetivo era “Student will play cricket or not” (El estudiante jugará cricket o no), es decir, SÍ o NO.
Árbol de decisión variable continua: El árbol de decisión tiene una variable de destino continua, entonces se llama Árbol de decisión de variable continua.

Algoritmo del Árbol de Decisión Pseudocódigo

El algoritmo del árbol de decisión intenta resolver el problema, utilizando la representación en árbol. Cada nodo interno del árbol corresponde a un atributo, y cada nodo de hoja corresponde a una etiqueta de clase. Así:

Coloque el mejor atributo del conjunto de datos en la raíz del árbol.
Divida el conjunto de entrenamiento en subconjuntos. Los subconjuntos deben estar hechos de tal manera que cada subconjunto contenga datos con el mismo valor para un atributo.
Repita los pasos 1 y 2 en cada subconjunto hasta que encuentre nodos de hoja en todas las ramas del árbol.

En los árboles de decisión, para predecir una etiqueta de clase para un registro, partimos de la raíz del árbol. Comparamos los valores del atributo raíz con el atributo del registro. Sobre la base de la comparación, seguimos la rama correspondiente a ese valor y saltamos al siguiente nodo.

Seguimos comparando los valores de los atributos de nuestros registros con otros nodos internos del árbol hasta llegar a un nodo de hoja con valor de clase predicho. El árbol de decisión modelado puede utilizarse para predecir la clase de destino o el valor.
Suposiciones al crear el Árbol de decisión

Algunas de las suposiciones que hacemos al usar el árbol de decisión:

Al principio, todo el conjunto de entrenamiento se considera como la raíz.
Los valores de las características son preferibles para ser categóricos. Si los valores son continuos, entonces son discretizados antes de construir el modelo.
Los registros se distribuyen recursivamente sobre la base de valores de atributo.
El orden para colocar atributos como raíz o nodo interno del árbol se hace usando algún enfoque estadístico.

Ventajas del árbol de decisión:

Fácil de entender: La salida del árbol de decisión es muy fácil de entender, incluso para las personas de origen no analítico. No requiere ningún conocimiento estadístico para leerlos e interpretarlos. Su representación gráfica es muy intuitiva y los usuarios pueden relacionar fácilmente sus hipótesis.
Útil en la exploración de datos: El árbol de decisión es una de las formas más rápidas de identificar las variables más significativas y la relación entre dos o más variables. Con la ayuda de árboles de decisión, podemos crear nuevas variables / características que tienen mayor poder para predecir la variable objetivo. También se puede utilizar en la etapa de exploración de datos. Por ejemplo, estamos trabajando en un problema en el que tenemos información disponible en cientos de variables, su árbol de decisión ayudará a identificar la variable más significativa.
Los árboles de decisión realizan implícitamente el cribado variable o la selección de características.
Los árboles de decisión requieren relativamente poco esfuerzo de los usuarios para la preparación de los datos.
Menor necesidad de limpieza de datos: Requiere menos limpieza de datos en comparación con otras técnicas de modelado. No está influenciado por valores atípicos y valores perdidos en un grado razonable.
El tipo de datos no es una restricción: Puede manejar (gestionar) tanto variables numéricas como categóricas. También puede manejar (gestionar) problemas de múltiples salidas.
Método no paramétrico: El árbol de decisión se considera un método no paramétrico. Esto significa que los árboles de decisión no tienen suposiciones sobre la distribución del espacio y la estructura del clasificador.
Las relaciones no lineales entre parámetros no afectan al rendimiento (véase una definición en el diccionario y más detalles, en la plataforma general, sobre rendimientos) del árbol.
El número de hiperparámetros a sintonizar es casi nulo.

Desventajas del árbol de decisión:

Por encima de la medida: Los participantes del árbol de decisiones pueden crear árboles demasiado complejos que no generalizan bien los datos. A esto se le llama sobreequipamiento. El sobreajuste es una de las dificultades más prácticas para los modelos de árboles de decisión. (Tal vez sea de interés más investigación sobre el concepto). Este problema se resuelve estableciendo restricciones sobre los parámetros del modelo y la poda.
No apto para variables continuas: Mientras trabaja con variables numéricas continuas, el árbol de decisión pierde información, cuando categoriza variables en diferentes categorías.
Los árboles de decisión pueden ser inestables porque pequeñas variaciones en los datos pueden resultar en la generación de un árbol completamente diferente. Esto se llama varianza, la cual necesita ser disminuida por métodos como el ensacado y el refuerzo.
Los algoritmos codiciosos no pueden garantizar que devuelvan el árbol de decisión globalmente óptimo. Esto puede ser mitigado entrenando a múltiples árboles, donde las características y muestras son muestreadas al azar con reemplazo.
Los participantes del árbol de decisión crean árboles sesgados si algunas clases dominan.

Una Conclusión

Por lo tanto, se recomienda equilibrar el conjunto de datos antes de ajustarlo al árbol de decisión.
La ganancia de información en un árbol de decisión con variables categóricas da una respuesta sesgada para los atributos con mayor número de categorías.
Generalmente, proporciona una baja precisión de predicción para un conjunto de datos en comparación con otros algoritmos de aprendizaje de máquina.
Los cálculos pueden volverse complejos cuando hay muchas etiquetas de clase.

Árboles de Regresión vs Árboles de Clasificación

Los nodos terminales (u hojas) se encuentran en la parte inferior del árbol de decisión. (Tal vez sea de interés más investigación sobre el concepto). Esto significa que los árboles de decisión se dibujan típicamente al revés, de modo que las hojas son la parte inferior y las raíces las partes superiores.

Basado en la experiencia de varios autores, mis opiniones y recomendaciones se expresarán a continuación:

Ambos árboles funcionan casi de manera similar. Las principales diferencias y similitudes entre los árboles de Clasificación y Regresión son:

Los árboles de regresión se utilizan cuando la variable dependiente es continua. Los árboles de clasificación se utilizan cuando la variable dependiente es categórica.
En el caso del Árbol de Regresión, el valor obtenido por los nodos terminales en los datos de entrenamiento es la respuesta media de la observación que cae en esa región. (Tal vez sea de interés más investigación sobre el concepto).

Una Conclusión

Por lo tanto, si una observación de datos no vista cae en esa región, haremos su predicción con valor medio.
En el caso del árbol de clasificación, el valor (clase) obtenido por el nodo terminal en los datos de entrenamiento es el modo de observaciones que cae en esa región. (Tal vez sea de interés más investigación sobre el concepto).

Una Conclusión

Por lo tanto, si una observación de datos no vista cae en esa región, haremos su predicción con valor de modo.
Ambos árboles dividen el espacio del predictor (variables independientes) en regiones distintas y no superpuestas.
Ambos árboles siguen un enfoque codicioso de arriba hacia abajo conocido como división binaria recursiva. Lo llamamos “de arriba hacia abajo” porque comienza desde la copa del árbol cuando todas las observaciones están disponibles en una sola región y divide sucesivamente el espacio del predictor en dos nuevas ramas a lo largo del árbol. Es conocido como’codicioso’ porque el algoritmo se preocupa (busca la mejor variable disponible) solo por la división actual, y no por las divisiones futuras que llevarán a un mejor árbol.
Este proceso de división continúa hasta que se alcanza un criterio de parada definido por el usuario. Por ejemplo: podemos decirle al algoritmo que se detenga una vez que el número de observaciones por nodo sea menor de 50.
En ambos casos, el proceso de división da como resultado árboles completamente maduros hasta que se alcanzan los criterios de parada.

Puntualización

Sin embargo, es probable que el árbol completamente crecido se ajuste demasiado a los datos, lo que lleva a una precisión deficiente en los datos no vistos. Esto trae la’poda’. La poda es una de las técnicas utilizadas en el overfitting de aparejos.

¿Cómo decide un árbol dónde dividirse?

La decisión de hacer divisiones estratégicas afecta en gran medida la precisión de un árbol. Los criterios de decisión son diferentes para los árboles de clasificación y regresión.

Los árboles de decisión utilizan varios algoritmos para decidir dividir un nodo en dos o más subnodos. La creación de subnodos aumenta la homogeneidad de los subnodos resultantes.Entre las Líneas En otras palabras, podemos decir que la pureza del nodo aumenta con respecto a la variable objetivo. El árbol de decisión divide los nodos en todas las variables disponibles y, a continuación, selecciona la partición que da como resultado subnodos más homogéneos.

La selección del algoritmo también se basa en el tipo de variables objetivo. Los cuatro algoritmos más utilizados en el árbol de decisión son:

Índice Gini

El índice de Gini dice que si seleccionamos dos ítems de una población al azar, entonces deben ser de la misma clase y la probabilidad es 1 si la población es pura.

Trabaja con la variable objetivo categórica “Success” o “Failure”.
Realiza solo particiones binarias.
Cuanto mayor sea el valor de Gini, mayor será la homogeneidad.
CART (Classification and Regression Tree) utiliza el método Gini para crear divisiones binarias.

Pasos para calcular el Gini de una división:

Calcule Gini para los subnodos, utilizando la fórmula de la suma de los cuadrados de probabilidad de éxito y fracaso (p²+q²).
Calcular el Gini para la división utilizando la puntuación ponderada de Gini de cada nodo de esa división.

Chi-cuadrado

Es un algoritmo para averiguar la significación estadística entre las diferencias entre los subnodos y el nodo padre. Lo medimos por la suma de cuadrados de diferencias estandarizadas entre las frecuencias observadas y esperadas de la variable objetivo.

Trabaja con la variable objetivo categórica “Success” o “Failure”.
Puede realizar dos o más particiones.
Cuanto mayor sea el valor de Chi-cuadrado, mayor será la significación estadística de las diferencias entre el subnodo y el nodo padre.
El Chi-cuadrado de cada nodo se calcula mediante una fórmula: Chi-cuadrado = ((Actual – Esperado)² / Esperado)¹/2.
Genera un árbol llamado CHAID (Chi-Square Automatic Interaction Detector)

Pasos para calcular el Chi-cuadrado para una división:

Calcular el Chi-cuadrado para un nodo individual calculando la desviación para el Éxito y el Fracaso.
Chi-cuadrado calculado de Split usando la suma de todos los Chi-cuadrados de éxito y fracaso de cada nodo de la división.

Obtención de información y entropía

Un nodo menos impuro requiere menos información para describirlo. Y, un nodo más impuro requiere más información. (Tal vez sea de interés más investigación sobre el concepto). La teoría de la información es una medida para definir este grado de desorganización en un sistema conocido como Entropía. Si la muestra es completamente homogénea, entonces la entropía es cero y si la muestra está dividida en partes iguales (50% – 50%), tiene entropía de una.

La entropía puede ser calculada usando la fórmula:- Entropía = -p log2 p – q log2q

Aquí p y q es probabilidad de éxito y fracaso respectivamente en ese nodo. La entropía también se utiliza con variables objetivo categóricas. Elige la división que tiene la entropía más baja en comparación con el nodo padre y otras divisiones. Cuanto menor sea la entropía, mejor.

Pasos para calcular la entropía de una división:

Calcular la entropía del nodo padre.
Calcular la entropía de cada nodo individual de la división y calcular la media ponderada de todos los subnodos disponibles en la división.

Podemos derivar la ganancia de información de la entropía como 1- Entropía.

Reducción de la desviación

La reducción de la desviación o varianza es un algoritmo utilizado para las variables objetivo continuas (problemas de regresión). Este algoritmo utiliza la fórmula estándar de varianza para seleccionar la mejor partición. (Tal vez sea de interés más investigación sobre el concepto). Se selecciona la partición con una desviación menor como criterio para dividir la población.

Pasos para calcular la Desviación:

Calcular la desviación para cada nodo.
Calcule la varianza para cada partición como media ponderada de cada nodo de varianza.

Parámetros clave de la modelización de árboles y cómo podemos evitar la sobreadaptación en los árboles de decisión:

El sobreequipamiento es uno de los principales retos prácticos a los que se enfrenta al modelar los árboles de decisión. (Tal vez sea de interés más investigación sobre el concepto). Si no hay un conjunto de límites de un árbol de decisión, le dará un 100% de precisión en el conjunto de entrenamiento porque en el peor de los casos, terminará haciendo una hoja por cada observación. (Tal vez sea de interés más investigación sobre el concepto). El modelo está teniendo un problema de sobreajuste, se considera cuando el algoritmo continúa yendo más y más profundo para reducir el error del conjunto de entrenamiento, pero los resultados con un mayor error del conjunto de pruebas, es decir, la precisión de la predicción para nuestro modelo se reduce. Generalmente ocurre cuando se construyen muchas ramas debido a valores atípicos e irregularidades en los datos.
Por lo tanto, prevenir el sobreajuste es fundamental mientras se modela un árbol de decisión y se puede hacer de dos maneras: Establecimiento de restricciones sobre el tamaño de los árboles. YPoda de árboles

Fijación de restricciones en el tamaño del árbol

Esto se puede hacer utilizando varios parámetros que se utilizan para definir un árbol. Los parámetros utilizados para definir un árbol son:

Muestras mínimas para una partición de nodo

Así:

Define el número mínimo de muestras (u observaciones) que se requieren en un nodo para ser considerado para la división.
Se utiliza para controlar el sobreajuste. Los valores más altos impiden que un modelo aprenda relaciones que podrían ser muy específicas para la muestra particular seleccionada para un árbol.
Valores demasiado altos pueden llevar a un ajuste insuficiente, por lo tanto, debe ser ajustado usando CV.

Muestras mínimas para un nodo terminal (hoja)

Así:

Define las muestras (u observaciones) mínimas requeridas en un nodo terminal u hoja.
Se usa para controlar el sobreajuste similar a min_samples_split.
Generalmente se deben elegir valores más bajos para problemas de clase desequilibrados porque las regiones en las que la clase minoritaria será mayoritaria serán muy pequeñas.

Profundidad máxima del árbol (profundidad vertical)

Así:

La profundidad máxima de un árbol se utiliza para controlar el sobreajuste ya que una mayor profundidad permitirá que el modelo aprenda relaciones muy específicas a una muestra en particular.
Debe ser afinado usando CV.

Número máximo de nodos terminales

así:

El número máximo de nodos terminales u hojas en un árbol se toma en cuenta.
Se puede definir en lugar de profundidad_máxima. Dado que se crean árboles binarios, una profundidad de’n’ produciría un máximo de 2^n hojas.

Máximas características a tener en cuenta para la división

Así:

El número de características a tener en cuenta en la búsqueda de la mejor división. (Tal vez sea de interés más investigación sobre el concepto). Estos serán seleccionados al azar.
Como regla general, la raíz cuadrada del número total de características funciona muy bien, pero deberíamos comprobar hasta un 30-40% del número total de características.
Los valores más altos pueden llevar a un sobreajuste, pero depende de cada caso.

Poda de árboles

La técnica de establecer restricciones es un enfoque codicioso.Entre las Líneas En otras palabras, comprobará la mejor división instantáneamente y avanzará hasta que se alcance una de las condiciones de parada especificadas.

Así que sabemos que la poda es mejor. Para implementarlo en el árbol de decisión:

Primero hacemos el árbol de decisión a gran profundidad.
Luego empezamos por abajo y empezamos a quitar las hojas que nos están dando resultados negativos cuando las comparamos con las de arriba.
Supongamos que una división nos da una ganancia de digamos -10 (pérdida de 10) y luego la siguiente división nos da una ganancia de 20. Un simple árbol de decisión se detendrá en el paso 1, pero en la poda, veremos que la ganancia total es de +10 y mantendremos ambas hojas.

¿Los modelos basados en árboles son mejores que los modelos lineales?

Si se puede utilizar la regresión logística para los problemas de clasificación y la regresión lineal para los problemas de regresión, ¿por qué es necesario utilizar árboles? En realidad, podemos usar cualquier algoritmo. Depende del tipo de problema que resolvamos. Algunos factores clave que nos ayudarán a decidir qué algoritmo utilizar:

Si la relación entre la variable dependiente e independiente está bien aproximada por un modelo lineal, la regresión lineal superará al modelo basado en árboles.
Si hay una alta no linealidad y una relación compleja entre variables dependientes e independientes, un modelo de árbol superará a un método de regresión clásico.
Para construir un modelo que sea fácil de explicar a la gente, un modelo de árbol de decisión siempre será mejor que un modelo lineal. Los modelos de árbol de decisión son aún más fáciles de interpretar que la regresión lineal, por ejemplo, la clasificación de árboles de decisión.

▷ Noticias internacionales de hoy (abril, 2024) por nuestros amigos de la vanguardia:

Cómo funcionan los árboles de decisión

El funcionamienteo del Algoritmo, algunas recomendaciones:

Construir el árbol de decisión.
Comenzar con los datos del nodo raíz.
Seleccione un atributo y formule una prueba lógica sobre el atributo.
Rama en cada resultado de la prueba, y mover el subconjunto de ejemplos que satisfacen ese resultado al nodo hijo correspondiente.
Recurrir a cada nodo hijo.
Repetir hasta que las hojas sean “puras”, es decir, tener ejemplo de una sola clase, o “casi puras”, es decir, la mayoría de los ejemplos son de la misma clase.
Árbol de ciruelas pasas
Eliminar subárboles que no mejoran la precisión de la clasificación
Evite el ajuste excesivo, es decir, artefactos específicos del equipo de entrenamiento.
Evaluar puntos de división para todos los atributos.
Seleccione el punto “mejor” y el atributo “ganador”.
Divida los datos en dos
Amplitud/profundidad – primera construcción

Revisor: Lawrence

En Relación al Aprendizaje Automatizado

Un médico que busca entender la naturaleza de la condición de su paciente a menudo no tiene nada con que empezar, salvo unos pocos síntomas subjetivos. Y así, para reducir el campo de los diagnósticos, prescribe pruebas de laboratorio, y, basado en los resultados, tal vez otras pruebas aún.Entre las Líneas En cualquier momento, entonces, el médico considera solo “atributos” que prometen añadir significado a su información o comprensión actual. Sería absurdo pedir todas las pruebas de laboratorio posibles (miles y miles de ellas) desde el principio.

La lección es que la información exhaustiva a menudo no está disponible inmediatamente; puede que ni siquiera sea necesaria. El clasificador puede hacerlo mejor eligiendo los atributos de uno en uno, según las exigencias de la situación. (Tal vez sea de interés más investigación sobre el concepto). La herramienta más popular para este escenario es un árbol de decisiones.

En los árboles de decisión, los valores de los atributos se prueban uno a uno, y el resultado de cada prueba indica lo que debe suceder a continuación: o bien otra prueba de atributos, o una decisión sobre la etiqueta de clase si se ha alcanzado una hoja. Se puede decir que un árbol de decisión consiste en un conjunto de pruebas parcialmente ordenadas, en las que cada secuencia de pruebas define una rama del árbol terminada por una hoja.

A partir de un conjunto típico de pruebas, se pueden crear muchos árboles de decisión alternativos. Por regla general, se prefieren los árboles más pequeños, siendo sus principales ventajas la interpretabilidad, la eliminación de atributos irrelevantes y redundantes, y un menor peligro de sobrecarga de datos de entrenamiento ruidosos.

El procedimiento más típico para la inducción de árboles de decisión a partir de datos procede de manera recursiva, tratando siempre de identificar el atributo que transmite la máxima información sobre la etiqueta de clase. Este enfoque tiende a hacer que los árboles de decisión inducidos sean más pequeños. El atributo “mejor” se identifica mediante fórmulas simples tomadas de la teoría de la información.

Un aspecto importante de la inducción de árboles de decisión es la poda. La motivación principal es asegurarse de que todas las ramas del árbol estén respaldadas por pruebas suficientes. Más adelante, la poda reduce el tamaño del árbol, lo que tiene ciertas ventajas (véase más arriba). Existen dos tipos genéricos de poda. (1) En la pospoda, el árbol primero se desarrolla completamente y luego se poda. (2) En la poda en línea (que quizás sea un poco equivocada), el desarrollo del árbol se detiene una vez que los subconjuntos de formación utilizados para determinar la siguiente prueba de atributos se vuelven demasiado pequeños.Entre las Líneas En ambos casos, la extensión de la poda se controla mediante parámetros establecidos por el usuario (denominados c y m, respectivamente).

Un árbol de decisión puede convertirse en un conjunto de reglas que pueden seguir siendo podadas.Entre las Líneas En un dominio con clases K, basta con especificar las reglas para las clases K – 1, convirtiéndose la clase restante en la clase por defecto. Las reglas suelen ser más fáciles de interpretar.

Detalles

Los algoritmos de poda de reglas a veces conducen a clasificadores más compactos, aunque con costos (o costes, como se emplea mayoritariamente en España) computacionales significativamente mayores.

Observaciones históricas

La idea de los árboles de decisión fue propuesta por primera vez por Hoveland y Hund a finales de los años 50. El trabajo se resumió más tarde en el libro Hunt y otros que informa de la experiencia con varias implementaciones de su Sistema de Aprendizaje Conceptual (CLS). Friedman y otros desarrollaron un enfoque similar de forma independiente. Un punto culminante de la investigación fue alcanzado por Breiman y otros donde se describe el sistema CART. La idea fue luego importada al mundo del aprendizaje por máquina por Quinlan. Tal vez la implementación más famosa es el C4.5 de Quinlan.

Datos verificados por: LI

Árbol de decisión

Recursos

[rtbs name=”informes-jurídicos-y-sectoriales”][rtbs name=”quieres-escribir-tu-libro”]

Véase También

Minería de datos
Redes neuronales
Aprendizaje por máquina
Clasificador
Decisión aleatoria
Algoritmo de aprendizaje
Árbol de comportamiento (inteligencia artificial, robótica y control)
Impulso (aprendizaje automático)
Ciclo de decisión
Lista de decisiones
Tabla de decisiones
Modelo de árbol de decisión de cálculo
Justificación del diseño
DRAKON
Cadena Markov
Bosque aleatorio
Algoritmo de probabilidades
Combinación topológica
Tabla de verdad
Algoritmo ID3
Álgebra de Boole
Grupo de trabajo
Microeconomía
Economía de la información
Teoría de Juegos
Juegos en forma extensiva
Teoría de la decisión
Estrategia
Aprendizaje profundo
Dinámica de sistemas
Inteligencia artificial
Inteligencia computacional
Internet de las cosas
Sistema dinámico
Minería de datos
Reconocimiento de patrones
Reglas de asociación
Robot autónomo
Sistema complejo
Representación del conocimiento
Equidad (aprendizaje automático)
Análisis predictivo – Técnicas estadísticas que analizan los hechos para hacer predicciones sobre eventos desconocidos
El aprendizaje de las máquinas cuánticas
Aplicaciones del aprendizaje a máquina en bioinformática
Seq2seq
Equidad (aprendizaje automático)

Ciencias de la computación, minería de datos, Descubrimiento de conocimientos, Grandes datos, Análisis de datos, inteligencia computacional, Inteligencia artificial, Visión por computadora, Cibernética, Aprendizaje, Aprendizaje Profundo, Algoritmos de clasificación, Estadística computacional, Neurociencia computacional, Investigación de mercado, Segmentación de mercado, Psicología matemática, Métodos económicos matemáticos, Métodos económicos cuantitativos

▷ Esperamos que haya sido de utilidad. Si conoce a alguien que pueda estar interesado en este tema, por favor comparta con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.

Relacionado

1 comentario en «Árbol de Decisión»

International

4 de diciembre de 2019 a las 10:28 am

Por ejemplo: considere el siguiente caso cuando esté conduciendo:

Hay 2 carriles:

Un carril con coches que se mueven a 80 km/h
Un carril con camiones en movimiento a 30 km/h

En este momento, usted es el coche amarillo y tiene dos opciones:

Gira a la izquierda y adelanta a los otros 2 coches rápidamente.
Mantenerse en movimiento en el carril actual

Analizando estas opciones: En la primera opción, inmediatamente adelantarás al auto que tienes delante, alcanzarás la parte trasera del camión y comenzarás a moverte a 30 km/h, buscando una oportunidad para retroceder a la derecha. Mientras tanto, todos los coches que están detrás de usted avanzan. Esta sería la mejor opción si su objetivo es maximizar la distancia recorrida en los próximos 10 segundos. En la opción posterior, usted conduce a la misma velocidad, cruza los camiones y luego adelanta tal vez dependiendo de la situación que se presente.

Esta es exactamente la diferencia entre el árbol de decisión normal y la poda. Un árbol de decisión con limitaciones no verá el camión adelante y adoptará un enfoque codicioso al girar a la izquierda. Por otro lado, si utilizamos la poda, en efecto, miramos unos pocos pasos adelante y tomamos una decisión.

Cargando...

Responder

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:Cancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

	Equipo de Lawi en Asiria
	Equipo de Lawi en Asiria
	Equipo de Lawi en Asiria
	Equipo de Lawi en Asiria
	Equipo de Lawi en Asiria

Árbol de Decisión

Introducción: el Análisis de decisiones

Aprendizaje supervisado

Árbol de Decisión

Introducción a los árboles de decisión

Detalles

Solicitudes de árbol de decisión

Funcionamiento

Agrarianismo

Filosofía Moral Agrícola

Asiria

Tipos de árboles de decisión

Algoritmo del Árbol de Decisión Pseudocódigo

Una Conclusión

Árboles de Regresión vs Árboles de Clasificación

Una Conclusión

Una Conclusión

Puntualización

¿Cómo decide un árbol dónde dividirse?

Índice Gini

Chi-cuadrado

Obtención de información y entropía

Reducción de la desviación

Fijación de restricciones en el tamaño del árbol

Muestras mínimas para una partición de nodo

Muestras mínimas para un nodo terminal (hoja)

Profundidad máxima del árbol (profundidad vertical)

Número máximo de nodos terminales

Máximas características a tener en cuenta para la división

Poda de árboles

¿Los modelos basados en árboles son mejores que los modelos lineales?

Cómo funcionan los árboles de decisión

En Relación al Aprendizaje Automatizado

Detalles

Observaciones históricas

Árbol de decisión

Recursos

Véase También

Comparte esto:

Me gusta esto:

Relacionado

1 comentario en «Árbol de Decisión»

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:Cancelar respuesta

Descubre más desde Plataforma de Derecho y Ciencias Sociales