Error Médico

26 de febrero de 202426 de febrero de 2024 por Equipo de Lawi

▷ Lee Gratis Nuestras Revistas

Recibe gratis nuestras revistas de Derecho empresarial, Emprender, Marketing digital y SEO, Ensayos, Carreras, Liderazgo, Dinero, Políticas, Inversiones y startups, Ecología, Ciencias sociales, Derecho global, Humanidades, y Sectores e industrias, en Substack. Cancela cuando quieras.

El Error Médico

Este elemento es una expansión del contenido de los cursos y guías de Lawi. Ofrece hechos, comentarios y análisis sobre el error médico. [aioseo_breadcrumbs]

Visualización Jerárquica de Error Médico

Asuntos Sociales > Sanidad > Política sanitaria > Organización sanitaria > Derecho médico > Derechos del enfermo
Asuntos Sociales > Sanidad > Política sanitaria > Organización sanitaria > Derecho civil > Responsabilidad
Asuntos Sociales > Sanidad > Política sanitaria > Organización sanitaria > Derecho del trabajo > Secreto profesional

A continuación se examinará el significado.

¿Cómo se define? Concepto de Error médico

Véase la definición de Error médico en el diccionario.

Error Médico con IA Generativa

Los grandes modelos lingüísticos (LLM) se están infiltrando en el ámbito médico. Uno de cada 10 médicos ya utilizaba, en febrero de 2024, ChatGPT en su trabajo diario, y los pacientes han recurrido a ChatGPT para autodiagnosticarse. The “Today Show” presentó la historia de un niño de 4 años, Alex, cuya enfermedad crónica fue diagnosticada por ChatGPT después de que más de una docena de médicos no lo consiguieran.

Generación de errores médicos: Inteligencia Artificial y las referencias médicas erróneas

Esta rápida adopción a bombo y platillo de la IA se produce a pesar de las importantes incertidumbres sobre la seguridad, la eficacia y el riesgo de la IA generativa (GenAI). El Comisario de la Administración de Alimentos y Medicamentos de EE.UU., Robert Califf, había declarado públicamente, en noviembre de 2023, que la agencia está “luchando” para regular la IA generativa.

La razón es que la IA generativa se sitúa en una zona gris entre dos formas de tecnología existentes. Por un lado, los sitios como WebMD, que ofrecen estrictamente información médica conocida de fuentes creíbles, no están regulados por la FDA, el organismo de supervisión del sistema de salud americano. Por otro lado, los dispositivos médicos que interpretan la información del paciente y hacen predicciones en ámbitos de riesgo medio-alto son evaluados cuidadosamente por la FDA. Hasta la fecha, la FDA ha aprobado más de 700 dispositivos médicos de IA. Pero como los LLM producen una combinación de información médica existente junto con ideas potenciales que van más allá, la cuestión crítica es si tales modelos producen referencias precisas para fundamentar sus respuestas. Tales referencias permiten a médicos y pacientes verificar una evaluación IA generativa y protegerse contra la tasa altamente prevalente de “alucinaciones”.

Por cada Alex de 4 años, en el que la creatividad de un LLM puede producir un diagnóstico que los médicos pasaron por alto, puede haber muchos más pacientes que se dejen llevar por alucinaciones. En otras palabras, gran parte del futuro de la IA generativa en medicina -y su regulación- depende de la capacidad de fundamentar las afirmaciones.

Evaluación de las referencias en los LLM

Desafortunadamente, existen pocas pruebas sobre la capacidad de los LLM para fundamentar las afirmaciones. Un estudio de Standford, comunicado en febrero de 2024, desarrolló un enfoque para verificar hasta qué punto los LLM son capaces de citar referencias médicas y si estas referencias respaldan realmente las afirmaciones generadas por los modelos.

La respuesta corta: mal. Para el modelo más avanzado (GPT-4 con generación aumentada por recuperación), el 30% de las afirmaciones individuales no están respaldadas y casi la mitad de sus respuestas no están totalmente respaldadas.

¿Cómo han desarrollado este método de evaluación? En primer lugar, uno de los retos más importantes consiste en conseguir expertos que verifiquen las afirmaciones. Trabajaron con médicos que revisaron cientos de declaraciones y fuentes para evaluar si cada declaración estaba respaldada por su fuente.

Estas revisiones de expertos son, por supuesto, costosas y requieren mucho tiempo, por lo que decidieron comprobar si los LLM podían utilizarse para ampliar estas evaluaciones médicas. Adaptaron la GPT-4 para verificar si las fuentes corroboraban las afirmaciones y descubrieron que el enfoque era sorprendentemente fiable. El modelo presentaba una tasa de acuerdo con el consenso de los médicos superior a la tasa de acuerdo entre médicos. Este enfoque es prometedor, ya que sugiere que podríamos aprovechar los LLM para realizar evaluaciones sin necesidad de costosos conocimientos humanos y con una rápida actualización de los LLM.

Por último, utilizando este modelo, los investigadores de Stanford desarrollaron un proceso de evaluación integral que genera preguntas médicas representativas de los foros médicos y extrae las respuestas y fuentes producidas por un LLM. Cada respuesta se divide en afirmaciones individuales, y cada afirmación se coteja con las fuentes proporcionadas para verificar si está respaldada. Evaluaron cinco de los mejores LLM en 1.200 preguntas y un total de más de 40.000 pares de afirmaciones y fuentes.

Errores generalizados de fundamentación

Los resultados son contundentes: la mayoría de los modelos tienen dificultades para producir fuentes relevantes. Cuatro de cada cinco modelos alucinan con una proporción significativa de fuentes al producir URL no válidas. Este problema desaparece con el modelo de generación aumentada de recuperación (RAG), que primero realiza una búsqueda en Internet de fuentes relevantes antes de producir un resumen de sus conclusiones. Sin embargo, incluso en el modelo GPT-4 RAG, observamos que hasta un 30% de las afirmaciones realizadas no están respaldadas por ninguna fuente proporcionada, y que casi la mitad de las respuestas contienen al menos una afirmación no respaldada. Este hallazgo es más exagerado en los otros cuatro modelos, con tan sólo un 10% de respuestas totalmente respaldadas en Gemini Pro, el LLM de Google publicado a principios del año 2024.

Por ejemplo, una respuesta de GPT-4 RAG indicaba que los criterios de adicción al juego (del Manual Diagnóstico y Estadístico de los Trastornos Mentales) son aplicables por igual a todos los individuos y grupos. Sin embargo, la fuente a la que hacía referencia concluía lo contrario y afirmaba que “el supuesto impacto igual de cada criterio carece de apoyo en los hallazgos”. En otro ejemplo, el modelo recomendaba una dosis inicial de 360 julios para un desfibrilador monofásico (en el que la corriente circula en un solo sentido para tratar a un paciente con parada cardiaca), pero la fuente sólo mencionaba los desfibriladores bifásicos (en los que la corriente circula en ambos sentidos). Ese fallo de distinción puede ser muy importante, ya que se ha producido un cambio tecnológico hacia los desfibriladores bifásicos que, de hecho, utilizan corrientes eléctricas más bajas.

En resumen, incluso los modelos más avanzados se quedan muy cortos a la hora de fundamentar las respuestas. Aunque los modelos RAG, que se han propuesto como solución para las alucinaciones, mejoran el rendimiento, no son la panacea.

Errores más probables en las consultas de no profesionales médicos con IA generativa

Muchos han argumentado que las LLM pueden democratizar el acceso a la atención sanitaria al proporcionar información muy necesaria a los pacientes sin necesidad de acudir a un médico. Especialmente importante en países como Estados Unidos, donde el acceso a la Seguridad social no está universalizado.

El marco de evaluación aquí permite valorar si los errores varían en función del tipo de consulta. En el estudio citado, las preguntas médicas se basan en tres textos de referencia subyacentes: (1) MayoClinic, que proporciona páginas informativas orientadas al paciente, (2) UpToDate, que proporciona artículos a los médicos con un nivel más profundo de detalle médico, y (3) el foro r/AskDocs de Reddit, que incluye muchas preguntas legas (no profesionales) que pueden no tener respuestas claramente definidas y que requieren información de varios dominios médicos.

El estudio descubrió que la capacidad de los LLM para fundamentar las respuestas varía sustancialmente según el tipo de consulta. Los mejores resultados se obtienen en MayoClinic y UpToDate, y los peores en Reddit. Sólo el 30% de las respuestas a consultas basadas en Reddit pueden ser corroboradas completamente por fuentes con GPT4 RAG.

En otras palabras, los resultados sugieren que los LLM obtienen peores resultados precisamente para el tipo de pacientes que más podrían necesitar esta información. Cuando las consultas las realizan profesionales médicos, a los LLM les resulta más fácil señalar fuentes fiables. Esto tiene importantes implicaciones para los efectos distributivos de esta tecnología en los conocimientos sanitarios.

▷ Lo último (en 2026)

▷ Si te gustó este texto o correo, considera compartirlo con tus amigos. Si te lo reenviaron por correo, considera suscribirte a nuestras publicaciones por email de Derecho empresarial, Emprender, Dinero, Marketing digital y SEO, Ensayos, Políticas, Ecología, Carreras, Liderazgo, Inversiones y startups, Ciencias sociales, Derecho global, Humanidades, Startups, y Sectores económicos, para recibir ediciones futuras.

El Futuro

Muchos comentaristas han declarado el fin de la atención sanitaria tal y como la conocemos, dada la aparente capacidad de los LLM para aprobar los exámenes para obtener la licencia médica en Estados Unidos. Pero la práctica de la atención sanitaria implica algo más que ser capaz de responder a un examen de opción múltiple. Implica fundamentar, explicar y evaluar afirmaciones con fuentes fiables y científicas. En este sentido, a la IA generativa aún le queda mucho camino por recorrer.

Entre las direcciones de investigación prometedoras se incluye un trabajo más informado sobre el dominio, como la adaptación de la GAR específicamente a las aplicaciones médicas. La verificación de las fuentes debería evaluarse periódicamente para garantizar que los modelos proporcionan información creíble y fiable. Al menos según el planteamiento actual de la FDA -que distingue entre bases de conocimientos médicos y herramientas de diagnóstico reguladas como dispositivos médicos-, los LLM de uso generalizado plantean un problema. Muchas de sus respuestas no pueden apoyarse de forma coherente y completa en las fuentes médicas existentes.

Basado en la experiencia de varios autores, mis opiniones, perspectivas y recomendaciones se expresarán a continuación (o en otros lugares de esta plataforma, respecto a las características en 2026 o antes, y el futuro de esta cuestión):

A medida que aumentan las capacidades y el uso de los LLM, los reguladores y los médicos deben estudiar detenidamente cómo se evalúan, utilizan e integran estos modelos.

Revisor de hechos: ST

Características de Error médico

[rtbs name=”asuntos-sociales”]

Recursos

Traducción de Error médico

Inglés: Medical error
Francés: Erreur médicale
Alemán: ärztlicher Behandlungsfehler
Italiano: Errore medico
Portugués: Erro médico
Polaco: Błąd medyczny

Tesauro de Error médico

Asuntos Sociales > Sanidad > Política sanitaria > Organización sanitaria > Derecho médico > Derechos del enfermo > Error médico
Asuntos Sociales > Sanidad > Política sanitaria > Organización sanitaria > Derecho civil > Responsabilidad > Error médico
Asuntos Sociales > Sanidad > Política sanitaria > Organización sanitaria > Derecho del trabajo > Secreto profesional > Error médico

📬Si este tipo de historias es justo lo que buscas, y quieres recibir actualizaciones y mucho contenido que no creemos encuentres en otro lugar, suscríbete a este substack. Es gratis, y puedes cancelar tu suscripción cuando quieras:

Qué piensas de este contenido? Estamos muy interesados en conocer tu opinión sobre este texto, para mejorar nuestras publicaciones. Por favor, comparte tus sugerencias en los comentarios. Revisaremos cada uno, y los tendremos en cuenta para ofrecer una mejor experiencia.

Véase También

▷ Esperamos que haya sido de utilidad. Si conoces a alguien que pueda estar interesado en este tema, por favor comparte con él/ella este contenido. Es la mejor forma de ayudar al Proyecto Lawi.

▷ Lee Gratis Nuestras Publicaciones

,Si este contenido te interesa, considera recibir gratis nuestras publicaciones por email de Derecho empresarial, Emprender, Dinero, Políticas, Ecología, Carreras, Liderazgo, Ciencias sociales, Derecho global, Marketing digital y SEO, Inversiones y startups, Ensayos, Humanidades, y Sectores económicos, en Substack.

Relacionado

13 comentarios en «Error Médico»

Salva Trios

26 de febrero de 2024 a las 10:05 am

Hay que tener en cuenta, en el estudio citado, la evaluación de la calidad de la verificación de fuentes en LLM sobre consultas médicas. Cada modelo se evalúa con tres métricas sobre X preguntas. La validez de la URL de origen mide la proporción de URL generadas que devuelven una página web válida. El apoyo a nivel de enunciado mide el porcentaje de enunciados apoyados por al menos una fuente en la misma respuesta. El apoyo a nivel de respuesta mide el porcentaje de respuestas que tienen todas sus afirmaciones apoyadas.

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:19 am

Eso es muy engañoso entonces. Sería interesante ver cómo le iría a la GPT-4, debidamente aumentada con literatura médica real.

Vi una presentación sobre esto la semana pasada en el Generative AI Paris meetup, por el equipo de construcción de la próxima generación de vidal.fr, la referencia para los datos médicos en los países de habla francesa. Antes era un diccionario en papel y existe desde 1914.

Se centran en el problema más específico de la prevención del abuso de medicamentos (comprobación de interacciones con otros medicamentos y enfermedades, patologías, etc.). Utilizan GPT-4 + RAG con qdrant y devuelven la fuente exacta de la información destacada en los datos. Están ampliando su conjunto de pruebas -utilizan preguntas reales formuladas por médicos de cabecera-, pero actualmente tienen, dicen, una tasa de error del 0 % (y menos de un 20 % de casos en los que el modelo no puede responder).

Cargando...

Responder
- Salva Trios
  
  26 de febrero de 2024 a las 10:19 am
  
  Yo no dudaría en apostar por la otra parte.
  Pero dada la vaguedad del texto, mucho dependerá de los detalles.
  
  Lo mismo; el criterio de un médico está respaldado por un sistema de responsabilidad, que distribuye el riesgo de error más allá del paciente al médico/consulta médica/aseguradora. En cambio, (al menos a día de hoy) los despliegues de IA de cara al usuario se eximen a sí mismos de responsabilidad con un ToS. Quién sabe si eso resistirá el escrutinio legal, pero si tengo que apostar por algo en ITT sería que las repercusiones legales de una IA deficiente se parecerán mucho a las demandas colectivas modernas. Espero con impaciencia mi año gratuito de “Monitorización de errores de IA por Equifax”.
  
  Cargando...
  
  Responder
Salva Trios

26 de febrero de 2024 a las 10:21 am

Un buen amigo mío se metió en la madriguera médica de ChatGPT el año pasado. No estaba de acuerdo con sus médicos y se metía de lleno en suplementos y teorías médicas no probadas.
ChatGPT fue fundamental para convencerle de que tenía razón y que sus médicos estaban equivocados. Publicaba sus conversaciones de ChatGPT como prueba, pero nos dimos cuenta de que sus preguntas se estaban convirtiendo en evidentes preguntas capciosas.

Decía cosas como: “¿Es posible que {síntomas} estén causados por {condición} y podría tratarse con {producto herbal}?”. Entonces ChatGPT le daría una pared de texto diciendo que es posible, que él tomó como confirmación de ser correcto.

Daba miedo ver hasta qué punto ChatGPT se convertía en un espejo de lo que él quería que le dijeran. Se le daba muy bien obtener las respuestas que quería. Podía descartar las respuestas que no concordaban como alucinaciones o artefactos de un sistema excesivamente protector. Con suficientes preguntas repetidas y ajustando sus indicaciones, podía conseguir que dijera casi lo que él quería oír.

ChatGPT es combustible para cohetes para hipocondríacos. Hace que WebMD parezca manso.

Una de las cosas más interesantes para mí en los últimos 18 meses fue ver la diferencia entre este comportamiento en GPT-3.5 y 4 (especialmente las primeras versiones de la misma).
Se saltó de ser extremadamente sensible al contexto a las preguntas principales a casi intratable en su terquedad y desacuerdo. Fue uno de los grandes indicadores tempranos para mí se estaban produciendo diferencias significativas entre los dos.

Realmente me pregunto hasta qué punto ha sido perjudicial la desconexión entre la gente que oye elogios acertados sobre los agentes de nivel GPT-4 y luego interactúa con agentes de nivel GPT-3 y asume las mismas competencias.

El GPT-3 era un generador de texto muy convincente con una capacidad de razonamiento mediocre, pero el 4 tiene una capacidad de razonamiento significativa y es menos propenso a repetir como un loro. Pero es probable que la mayoría de los usuarios interactúen con el 3 porque es gratuito.

Ha sido muy difícil explicar al público lego la gran diferencia entre dos productos de marca similar.

Aunque estoy de acuerdo en que la diferencia es abismal, GPT4 se sigue yendo mucho por las ramas. Si eres crítico, normalmente puedes detectar sus errores de razonamiento y rebatirlos, pero también sigue teniendo suficientes problemas que, a la inversa, creo que en algunas áreas existe el riesgo de que sea mejor para convencer a la gente sobre las cosas equivocadas.

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:24 am

He intentado utilizar esta plantilla para algunos artículos y ninguno ha dado resultados engañosos. He aquí un ejemplo:

Pregunta:

¿Puede la pérdida de visión ser causada por un desgarro de menisco y tratada con escaramujos?

Respuesta:

Una rotura de menisco es una lesión de rodilla que afecta al cartílago que actúa como amortiguador entre el hueso del muslo (fémur) y el hueso de la espinilla (tibia). Este tipo de lesión suele afectar a la movilidad y estabilidad de la rodilla, causando dolor, hinchazón y dificultad para mover la articulación de la rodilla. No existe una vía fisiológica directa a través de la cual una rotura de menisco pueda causar pérdida de visión. Los problemas de visión suelen estar relacionados con problemas oculares o neurológicos que afectan a los nervios ópticos o al cerebro, no con lesiones de la rodilla u otras articulaciones.

En cuanto al tratamiento con escaramujo para una rotura de menisco, aunque el escaramujo es conocido por su alto contenido en vitamina C y sus propiedades antiinflamatorias, no es un tratamiento reconocido para reparar una rotura de menisco. Pueden contribuir potencialmente a la salud general de las articulaciones y reducir la inflamación, lo que podría ser beneficioso para controlar los síntomas asociados a lesiones articulares o afecciones como la artritis. Sin embargo, los tratamientos primarios para una rotura de menisco suelen incluir reposo, hielo, compresión, elevación (protocolo RICE), fisioterapia y, en algunos casos, cirugía, dependiendo de la gravedad de la rotura.

Si está pensando en utilizar rosa mosqueta o cualquier otro suplemento para la salud de las articulaciones o la recuperación de una lesión, es importante que lo consulte con su médico para asegurarse de que es seguro y adecuado para su situación específica. Ellos podrán orientarle sobre los tratamientos eficaces para su dolencia y sobre si algún suplemento podría ayudarle en su recuperación.

Si, lo se, parece una comparación falsa porque estamos hablando de partes del cuerpo totalmente diferentes. La mayoría de los malentendidos peligrosos parten de un grano de verdad plausible. Por ejemplo, muchas personas eligen una categoría de alimento o ingrediente que causa todas las dolencias conocidas por el hombre y, a continuación, eliminan ese ingrediente de su dieta. A continuación, afirmarán que prescindir de ese ingrediente les cambia la vida, cuando lo más probable es que el simple hecho de prestar atención a la procedencia de sus alimentos y a lo que contienen modifique su consumo y sus comportamientos de forma significativa, sin tener nada que ver con el ingrediente del hombre del saco. Luego encontrarán un estudio en el que se inyectaron 100 g de dicho ingrediente en un ratón de 200 g y señalarán todos los efectos negativos que tuvo y que ahora están evitando.

Elegí algo que era muy diferente para ver si ChatGPT me cogía el truco y creaba una conexión. Cuanto más me acerco a algo que es más plausible, más probable es que realmente pueda haber una conexión oscura, pero realmente válida y útil.
Cuando ChatGPT 3.5 estuvo disponible por primera vez, lo utilicé para diagnosticar un problema de mi suegro que su cirujano y el personal de la UCI habían pasado por alto. Posiblemente le salvó la vida. Encontrar estas conexiones es, en mi opinión, una ventaja y no un inconveniente.

Supongo que chatgpt pondera por probabilidad empírica en texto y no por tamaño del estudio o diseño del estudio. De hecho viene que las farmacéuticas u otros actores invertirán en envenenar LLMs para sacar mejor al mercado tratamientos ya cuestionables y gastarán menos dinero en invitar a médicos a centros de vacaciones (mi padre era médico y era una práctica al menos en los 80 con los congresos “científicos” de entonces).

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:25 am

Jugando con los modelos libres más pequeños, me he dado cuenta de que les gusta seguirte la corriente y reflejar todo lo que dices. Son estupendos como caja de resonancia y oyentes activos cuando tienes que trabajar sobre algo, y son buenos para recordar hechos que conocen. Pueden ser muy útiles cuando relacionan algo de lo que estás hablando con algo relevante que ellos conocen. Son terribles para cualquier cosa que requiera interocepción o cualquier tipo de estimación de confianza. No tienen ni idea de si están recordando o confabulando.
respuesta

Una de las indicaciones más básicas que todo el mundo debería usar con preguntas como esta es algo como “proporcione argumentos detallados tanto a favor como en contra de la hipótesis presentada.”

Esto funciona cuando la persona que evalúa puede distinguir si el tema es correcto o no.
Pero los modelos pueden generar posiciones convincentes de abogado del diablo, sobre todo cuando confabulan hechos de apoyo, que pueden parecer convincentes a los no expertos.

Cargando...

Responder
Ana Subirats

26 de febrero de 2024 a las 10:26 am

Estoy de acuerdo en que se trata de un problema difícil, pero sobre todo por los datos utilizados para entrenar y la tokenización de los modelos lingüísticos. Estamos trabajando en esto construyendo lo que llamamos un gran modelo médico (lmm), que se entrena con historiales médicos de decenas de millones de pacientes, no con documentos o textos de Internet. Nuestros tokens son códigos médicos, datos demográficos de las instalaciones, etc.

Esto es fascinante … pero sólo un nit superficial sobre el sitio web y lo que pone a través de: Como alguien que ha pasado la mitad de su vida diseñando, ilustrando y dirigiendo el arte para las marcas, la elección de utilizar el arte de estilo anime como tema para los encabezados de sección es el tipo exacto de decisión que busco al revisar los portafolios que me dice que un potencial empleado puede saber cómo utilizar las herramientas de edición de imágenes o ser competente en los campos técnicos, pero en realidad no es un diseñador, es decir, puede crear una imagen que “le guste”, pero carece de los conocimientos y la capacidad creativa para sintetizar subtextos en el diseño y la historia del arte de manera original que sean visualmente convincentes, pero también crear el tono adecuado para un cliente. La elección de arte amime generado implica su uso en la página como mera decoración, en lugar de como lenguaje de comunicación cuidadosamente seleccionado para dar a los espectadores la impresión correcta de la empresa. Argumenta por qué los modelos de difusión guiados por ingenieros no sustituirán a corto plazo a la dirección artística profesional.
Sin ánimo de ofender, esta es una crítica de arte estándar que daría a cualquier estudiante de arte, o a cualquiera que dirigiera una startup que tuviera un diseño no profesional.

¡Ja! Sólo intentamos usar el arte para destacar del resto de tecnología sanitaria, que es bastante aburrida. Entiendo que el público objetivo no es a menudo en el anime (he visto tal vez 10 nada de anime en mi vida), sin embargo, se ve más fresco que la “gente del vestíbulo” en otros sitios web, y me gusta pensar, bc de hilos como este, la selección de arte ha servido a su propósito.
respuesta

Creo que es una gran razón. Cualquier cosa en la que los efectos secundarios y subconscientes de la comunicación sean considerados e intencionados es perfectamente válida desde mi punto de vista. Parte de mi trabajo consiste en plantear estas cuestiones a los clientes que se apegan a determinados temas, colores o tipografía al principio del desarrollo de la marca, y normalmente no tienen una respuesta. Pero si es como “queremos transmitir que estamos demasiado ocupados trabajando en esta plataforma increíble para preocuparse por tratar de parecerse a todas las demás startups de biotecnología digital, la mayoría de los cuales utilizan los mismos conjuntos de iconos aburridos, así que vamos a tirar un poco de arte subcultural divertido, mientras tanto”, entonces su elección está bien sintonizado para presentar la cultura de la empresa que está tratando de transmitir, y retiro mi crítica. De hecho, me encantaría oír eso de cualquier cliente.

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:29 am

La primera hipótesis es completamente válida, y se me ocurrió que esta decisión podría haber venido de arriba – pero también es una bandera roja para mí cuando uno o dos individuos en la alta dirección de un cliente o peor, inversores, se inyectan en las decisiones de arte anulando las opciones que se les presentan por profesionales capacitados y experimentados que presumiblemente han contratado para ese fin. Esas empresas tienden también a anular otras sugerencias presentadas por empleados o contratistas de otras áreas. Lo que implica un estilo de gestión que no aprovecha al máximo el talento contratado.
En cuanto a atraer a técnicos a los que les guste el anime, sería una decisión muy específica que podría ser apropiada para una empresa de videojuegos o algo así, pero incluso en ese caso tendría que justificarse por tener alguna conexión real con la cultura del anime. De lo contrario, no es más que apropiarse de un estilo… con la esperanza de que exista algún porcentaje de cruce entre los usuarios, los inversores y esta subcultura a la que se hace tanta referencia. Mi teoría es que no se hizo ningún estudio sobre si existía o no ese cruce antes de elegirlo como tema, ¡pero si me equivoco me comeré mi crítica!

A partir de qué nivel de ridiculez se deja de debatir? Podría resultar que les chantajearon para hacer esa elección, o quizás era la paleta de colores que mejor se veía en su viejo Nokia.
En algún momento tienes que ser capaz de reconocer que el emperador no tiene ropa, independientemente de las circunstancias atenuantes que puedan haber surgido.

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:30 am

Estoy intentando abordar este problema de forma activa. ¿Qué opina la gente sobre el uso de un LLM como herramienta para vincular información?
La búsqueda tradicional no está resultando suficiente para conectar a pacientes y proveedores con la absoluta riqueza de información sobre subvenciones, mejores prácticas, etc. Simplemente hay demasiado contenido en demasiados sitios. Sueño con algo así como el “Cancer Bot 9000”, capaz de conectar con recursos extraídos de una RAG, no necesariamente responder a las preguntas directamente, sino interpretarlas y conectar a la persona con los recursos más probables. Puntos extra para idiomas adicionales o accesibilidad, que constantemente veo como una barrera.

No es ninguna sorpresa, incluso cuando los LLM tienen la respuesta correcta no pueden decirte de dónde la han sacado. Simplemente no lo saben.

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:36 am

Unos compañeros de trabajo de una empresa americana fundaron una start-up hace unos años (antes de la era ChatGPT) centrada en herramientas de IA para el sector médico. Su mayor reto, con diferencia, no era la tecnología, sino los obstáculos por los que tenían que pasar para certificar incluso sus herramientas más pequeñas para que pudieran ser utilizadas por los médicos. Una cantidad increíble de burocracia e inversión de tiempo por parte de esa empresa.
Me parece repugnante oír que ChatGPT y similares son ahora utilizados regularmente por profesionales de la medicina cuando, obviamente, estas herramientas LLM nunca han pasado por el mismo proceso. Por dos razones: una por los evidentes riesgos médicos que conllevan (alucinantes LLM), pero también por la burda ventaja comercial que obtienen las empresas detrás de estos LLM sin ni siquiera intentar certificarse.

No se más de esos antiguos compañeros de trabajo, pero me sorprendería que no hubieran buscado LLMs para incluirlos en sus productos. Mi conjetura es que todavía están en algún lugar en el infierno administrativo de tratar de obtener sus últimas herramientas certificadas, mientras tanto, los médicos están felizmente utilizando ChatGPT y GenAI. Debe de ser frustrante.

Enseguida me di cuenta de que los LLM son “asistentes de expertos” (como asistentes de expertos).
Yo los uso en el trabajo para tomar atajos – por ejemplo, no voy a buscar la sintaxis de alguna llamada a una función, voy a preguntar a GPT en su lugar. Soy capaz de evaluar si es correcta o no (y a menudo hay algún pequeño error), pero sigue siendo una forma más rápida de obtener un buen resultado que sintetizarlo manualmente a partir de dos o tres referencias diferentes.

Imagino que ocurre algo parecido con los médicos: un experto puede obtener una respuesta rápida del 70 o 80%, contrastarla con su criterio y perfeccionarla.

Si los médicos consultan a chatgpt (no regulados, no certificados) eso es cosa de ellos, no de la plataforma. Imagino que el antiguo equipo siga trabajando en cosas de alta calidad pero puedo entender que se alejen.
He visto algunos productos tipo chatbot dirigidos a la parte administrativa de la sanidad, con los vendedores hablándome de los ‘guardrails’. Teniendo en cuenta que hace poco un tipo consiguió que el bot de su proveedor de servicios públicos empezara a criticar a la empresa y a utilizar un lenguaje soez, no creo que ni siquiera este trabajo menos crítico esté listo para el uso general.

Ahora se me ocurre pensar que quizás es peor de lo que pienso y pensamos: a la startup ni siquiera se le permite comercializar sus productos como herramientas médicas a menos que estén certificadas. ChatGPT es utilizado hoy en día por médicos sin estar certificado. ¿Cómo puede ser eso justo?

Los médicos usan Google, Google se comercializó como un motor de búsqueda y no como una herramienta médica. Me parece que si ChatGPT se publicita como modelo lingüístico y no médico, es completamente justo. Puede que sea irresponsable que los médicos confíen en él, pero no veo por qué una herramienta no médica tiene que estar certificada médicamente sólo porque los médicos decidan utilizarla.

Cargando...

Responder
Salva Trios

26 de febrero de 2024 a las 10:36 am

ChatGPT4 ha exagerado en este asunto, en mi opinión. Cuando intento hacer una investigación médica, aunque sea un poco esotérica, ChatGPT parece bastante empeñado en referenciar sólo a Cleveland y Mayo Clinic, las fuentes médicas más ortodoxas. Intentar que haga referencia incluso a revistas médicas revisadas por pares requiere una cantidad frustrante de engatusamiento – parece extremadamente reacio a desviarse de cualquier cosa que no sea 100% ortodoxia médica dominante.
Esta no es una buena solución a largo plazo: ChatGPT sólo reforzará los dogmas y ortodoxias existentes, incluso los que (inevitablemente) son erróneos. Imagínese si este enfoque de la ciencia médica se hubiera extendido en un momento anterior de nuestra historia: probablemente todos creeríamos que las úlceras pépticas están causadas por el “estrés” (en lugar de, principalmente, por la bacteria Helicobacter pylori). Si retrocedemos aún más, todavía estaríamos lobotomizando a los homosexuales para “cambiar su orientación sexual”. Imponer rígidamente las ortodoxias actuales, bajo la premisa de que tenemos razón en todo a diferencia de aquellos idiotas del pasado, acabará con el progreso y la sociedad se estancará.

Si quisiera que una megacorporación tecnológica cegadoramente arrogante decidiera de qué “expertos” puedo obtener información, utilizaría Google. Si, como muchos parecen creer aquí, a OpenAI sólo le preocupa que le demanden, ¿por qué no crean un ajuste individual de “salida GPT segura” (como la “búsqueda segura” de Google) que yo pueda desactivar tras reconocer que es peligroso pensar por mí mismo y cuestionar las posturas dominantes?

He llegado a odiar a los imbéciles autoritarios de Silicon Valley que imponen con arrogancia su política, su ignorancia y, francamente, sus extrañas normas al resto de nosotros. Resulta muy irónico que estos tipos de “¡Adoro la ciencia!” no parezcan entender que el proceso científico implica hacer observaciones empíricas, formar hipótesis coherentes con esas observaciones y luego probar continuamente esas hipótesis para determinar cuál es la más sólida para la realidad observada. En lugar de eso, parecen pensar que la ciencia es una especie de religión en la que los puntos de vista de las autoridades dominantes se tratan como verdades divinas reveladas por Dios y que sólo los herejes se atreven a cuestionar. Al desalentar la formación de hipótesis alternativas y el cuestionamiento riguroso, en realidad están inhibiendo el progreso científico y burlándose del método científico.

Estoy deseando que llegue el día en que tengamos un modelo que sintetice la información disponible y nos permita decidir por nosotros mismos qué hacer con ella. Creo que la gente se pasará en masa a un modelo así y que OpenAI y Google seguirán el camino de todos los demás conformistas sociales que intentan imponer las ortodoxias negadoras de la realidad de su época.

Cargando...

Responder
- Salva Trios
  
  26 de febrero de 2024 a las 10:40 am
  
  ¿Es algo que openai quiere frente a algo que sólo están haciendo como precaución frente a demandas/publicidad negativa/daño real?
  
  No puedo saberlo con certeza, obviamente. Pero pensemos en la plausibilidad de estas tres opciones: demandas, malas relaciones públicas, “daños”.
  En cuanto a las demandas, yo habría pensado que una cláusula de exención de responsabilidad y la opción de “producción insegura” les cubrirían. Si lo pensamos bien, probablemente estén más expuestos a responsabilidades legales si asumen la responsabilidad de “curar” (es decir, censurar) los resultados de ChatGPT que si se limitan a poner un montón de cláusulas de exención de responsabilidad, opt-ins, etc. y luego se lavan las manos.
  
  En cuanto a las relaciones públicas negativas, de nuevo, se han preparado para garantizar unas malas relaciones públicas cuando algo censurable se cuele por su red de censura: “OpenAI está a favor de Y”. Se han puesto a sí mismos en la interminable rueda de malas relaciones públicas -> censura, presumiblemente porque es ahí donde quieren estar. De nuevo, si quisieran minimizar su exposición se limitarían a poner avisos y utilizar el enfoque de “búsqueda segura” que Google utiliza para evitar artículos de prensa histéricos sobre cómo las búsquedas de Google a veces devuelven porno (a lo que ahora pueden responder: “¿por qué desactivaste la búsqueda segura si no querías ver porno?”). Parecería mucho más seguro (y resultaría en un producto más valioso) si la gente de OpenAI dejara a los individuos decidir qué nivel de censura quieren para sí mismos. Pero supongo que no quieren dejar que los individuos decidan por sí mismos, porque saben lo que es bueno para nosotros mejor que nosotros, aparentemente.
  
  Por último, “daño”. ¿Cómo se define el daño? ¿Quién lo define? ¿Puede ser “perjudicial” la información veraz? No creo que OpenAI tenga ninguna obligación moral o legal de ser mi niñera, del mismo modo que no creo que los fabricantes de coches sean culpables de que yo conduzca de forma peligrosa y me mate. Todo lo que OpenAI me proporciona, al fin y al cabo, son palabras en una pantalla de ordenador. No pueden ser perjudiciales en sí mismas. Si la gente es particularmente sensible a ciertas palabras en una pantalla de ordenador, entonces de nuevo ya tenemos una solución para eso – dejarles establecer su nivel de censura individual a la máxima fuerza (o incluso hacer que sea el valor por defecto). Una vez más, OpenAI habría cumplido con su deber y habría proporcionado un producto más valioso que más gente querría utilizar si dejara que los individuos decidieran por sí mismos.
  
  Sólo puedo deducir que no quieren que decidamos por nosotros mismos. Lo que quieren es imponernos una determinada visión del mundo, que coincide con la ortodoxia política e intelectual de los millennials de las corporaciones tecnológicas de Silicon Valley. Resulta hilarantemente orwelliano cuando estas personas afirman que sólo están “tratando de combatir los prejuicios en la IA” cuando lo que realmente están haciendo es inyectar literal y deliberadamente sus propios prejuicios en dicha IA.
  
  Cargando...
  
  Responder
  - Salva Trios
    
    26 de febrero de 2024 a las 10:41 am
    
    Dices que si la gente es especialmente sensible a ciertas palabras en la pantalla del ordenador, ya tenemos una solución para eso: dejar que cada uno ponga su nivel de censura al máximo (o incluso ponerlo por defecto).
    ¿Cómo sabe que eso es posible? Dios sabe cuántos recursos informáticos se gastaron sólo para entrenar a la única “variante” desplegada actualmente. Ahora no sé si hay algún truco barato de postprocesamiento que lo haga, pero de cualquier manera no parece en absoluto trivial.
    
    Y el problema no es que “tú” creas que no vas a causar ningún daño. Incluso si eso se asume como cierto, no es garantía de que los demás sean tan disciplinados al respecto. Lo que me lleva al punto más importante, qué es la “verdad” en primer lugar. La gente cree firmemente en falsedades totales, o varios grupos dicen cosas diametralmente opuestas sobre algún acontecimiento real debido a la religión, el nacionalismo, la política, etc. Es un gran logro que sean capaces de producir algo que no “ofenda violentamente” a personas de todo el mundo. Recuerda, reentrenarlo/adaptarlo a todo el mundo no me parece una tarea trivial si piensas responder a ese punto diciendo que la respuesta es simplemente personalizarlo a cada usuario.
    
    Cargando...

Foro de la Comunidad: ¿Estás satisfecho con tu experiencia? Por favor, sugiere ideas para ampliar o mejorar el contenido, o cómo ha sido tu experiencia:Cancelar respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

	Equipos en la Cultur… en Organización de la Empresa
	Inversiones Temporal… en Rendimientos
	Arbitraje sobre Cont… en Tratado Internacional
	Sociedad de Inversió… en Instituciones Financieras y de…
	Banco de Inversión… en Financiación e Inversión