LLM Blog elhacker.NET

Mostrando entradas con la etiqueta LLM. Mostrar todas las entradas

Mostrando entradas con la etiqueta LLM. Mostrar todas las entradas

¿Qué es la cuantización, los parámetros y la temperatura en los LLM?

viernes, 4 de abril de 2025 | Publicado por el-brujo | Editar entrada

Los grandes modelos lingüísticos (LLM) vienen en todos los sabores. Cada vez son más grandes en cuanto al número de parámetros y más capaces de aprender y procesar los datos. Cuantos más parámetros tenga un modelo, más complejo será y más datos podrá procesar. Sin embargo, esto tiene el inconveniente de que su formación y despliegue resultan caros.

Etiquetas: inteligencia artificial , LLM , tokens | 0 comentarios

Docker Model Runner: ejecución sencilla de modelos generativos locales LLM

jueves, 3 de abril de 2025 | Publicado por el-brujo | Editar entrada

Docker ha lanzado hace muy poco una nueva herramienta que promete simplificar y optimizar el trabajo con modelos de inteligencia artificial generativa en entornos locales: Docker Model Runner. Si trabajas con Docker y te interesan los grandes modelos de lenguaje, esta nueva característica podría transformar tu flujo de trabajo de manera importante.

Etiquetas: docker , hub , inteligencia artificial , llama , LLM , ollama | 0 comentarios

Anthropic asegura haber descubierto cómo ‘piensan’ los modelos de IA

viernes, 28 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Anthropic, la compañía responsable de Claude 3.7 Sonnet, afirma haber descifrado cómo "piensan" los modelos de IA. Investigadores de la empresa llevaron a cabo un estudio para comprender el funcionamiento de los modelos de lenguaje de gran tamaño (LLM). Sus hallazgos podrían ofrecer una visión más clara sobre cómo generan respuestas, toman decisiones o producen resultados engañosos.

Etiquetas: anthropic , claude , inteligencia artificial , LLM , sonnet | 0 comentarios

DeepSeek presenta un nuevo modelo de IA optimizado: DeepSeek V3-0324 (700GB)

martes, 25 de marzo de 2025 | Publicado por el-brujo | Editar entrada

DeepSeek, la empresa china que puso de cabeza a OpenAI y otras empresas tecnológicas, ha lanzado la última versión de su modelo estrella: DeepSeek V3-0324. Esta inesperada actualización introduce mejoras en rendimiento y accesibilidad, posicionándolo como uno de los modelos de IA más avanzados para el usuario final. Una de sus características más llamativas es su capacidad para ejecutarse en un Mac Studio con chip M3 a una velocidad sorprendente.

Etiquetas: deepseek , inteligencia artificial , LLM , m3 , MAC | 0 comentarios

NVIDIA presenta los modelos de razonamiento de IA Llama Nemotron

miércoles, 19 de marzo de 2025 | Publicado por el-brujo | Editar entrada

NVIDIA (NASDAQ:NVDA), el gigante de semiconductores ha anunciado el lanzamiento de su familia de modelos Llama Nemotron, diseñados para mejorar las capacidades de razonamiento de IA para desarrolladores y empresas. Se dice que los nuevos modelos mejoran las tareas matemáticas de varios pasos, codificación, razonamiento y toma de decisiones complejas, con mejoras de precisión de hasta un 20% y optimizaciones de velocidad de inferencia 5 veces superiores en comparación con los modelos existentes.

Etiquetas: inteligencia artificial , llama , LLM , nvidia | 0 comentarios

La IA de código abierto iguala a los mejores LLM propietarios en la resolución de casos médicos complejos

lunes, 17 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Los hallazgos sugieren que las herramientas de IA de código abierto se están volviendo cada vez más competitivas y podrían ofrecer una alternativa valiosa a los modelos propietarios. “Hasta donde sabemos, esta es la primera vez que un modelo de IA de código abierto iguala el rendimiento de GPT-4 en casos tan complejos evaluados por médicos”, afirmó el autor principal, Arjun Manrai.

Etiquetas: inteligencia artificial , LLM , medicina , open source | 1 comentarios

Google anuncia Gemma 3: su nueva IA ligera para dispositivos locales

jueves, 13 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Google acaba de hacer oficial Gemma 3, una nueva serie de modelos de IA que ofrece varios tamaños de parámetros y que puede ejecutarse tanto en una sola GPU como TPU. Gemma es una versión más ligera de Gemini y es abierta a todo el mundo, siendo estas dos características sus principales ventajas respecto a Gemini. La intención por parte de Google con Gemma es dotar a los usuarios de las herramientas necesarias para desarrollar aplicaciones que sean capaces de aprovechar todo el potencial de la IA y todo ello sin limitaciones en cuanto a hardware.

Etiquetas: gemma , google , inteligencia artificial , LLM | 0 comentarios

La china Alibaba lanza una IA que dice mejorar a DeepSeek y se dispara en bolsa

viernes, 7 de marzo de 2025 | Publicado por el-brujo | Editar entrada

La tecnológica china Alibaba ha desvelado este jueves su nueva inteligencia artificial (IA), que asegura mejora a DeepSeek y presenta batalla a alternativas occidentales como ChatGPT. El anuncio le ha valido un impulso del 8% en bolsa, lo que hace que en el año ya trepe el 70%, por encima de los 300.000 millones de dólares en valor bursátil.

Etiquetas: alibaba , china , inteligencia artificial , LLM , qwen | 0 comentarios

Herramientas con interfaz web para Ollama (IA)

miércoles, 5 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Ollama es una herramienta gratuita y de código abierto que permite a los usuarios ejecutar localmente grandes modelos lingüísticos (LLM). Simplifica la experiencia de la IA al permitirle interactuar con los LLM sin complicaciones en su máquina.

Etiquetas: docker , gui , inteligencia artificial , LLM , ollama , rag , web | 0 comentarios

APIs y contraseñas confidenciales utilizadas para entrenar LLM

lunes, 3 de marzo de 2025 | Publicado por el-brujo | Editar entrada

Se ha descubierto que un conjunto de datos utilizado para entrenar modelos de lenguaje grandes (LLM) contiene casi 12.000 secretos activos, que permiten una autenticación exitosa. Los hallazgos resaltan una vez más cómo las credenciales codificadas de forma dura (hardcoding) plantean un grave riesgo de seguridad tanto para los usuarios como para las organizaciones, sin mencionar que agravan el problema cuando los LLM terminan sugiriendo prácticas de codificación inseguras a sus usuarios.

Etiquetas: api , data leak , LLM | 0 comentarios

OWASP Top 10 para aplicaciones de modelos de lenguaje de gran tamaño (LLM)

miércoles, 26 de febrero de 2025 | Publicado por el-brujo | Editar entrada

El Top 10 de riesgos para programas LLM de 2025 comenzó en 2023 como un esfuerzo impulsado por la comunidad para destacar y abordar problemas de seguridad específicos de las aplicaciones de IA.

Etiquetas: LLM , owasp | 0 comentarios

NVIDIA Tesla P40 en un ordenador personal para IA LLM

martes, 25 de febrero de 2025 | Publicado por el-brujo | Editar entrada

La NVIDIA Tesla P40, que en su día fue una potencia en el ámbito de las GPU de servidor, está diseñada principalmente para tareas de aprendizaje profundo e inteligencia artificial. Equipada con 24 GB de VRAM GDDR5, esta GPU es una opción interesante para quienes deseen ejecutar modelos de generación local de texto, como los basados en arquitecturas GPT (Generative Pre-trained Transformer). Este artículo explora la viabilidad, las posibles ventajas y el proceso de instalación de la Tesla P40 en un ordenador de consumo.

Etiquetas: gpu , inteligencia artificial , LLM , nvidia , p40 , tesla , vram | 0 comentarios

Anthropic presenta Claude 3.7 Sonnet: la primera IA híbrida capaz de razonar y programar

| Publicado por el-brujo | Editar entrada

Anthropic ha lanzado Claude 3.7 Sonnet, bautizado como el primer modelo de razonamiento híbrido del mundo. La compañía integrada por exempleados de OpenAI consiguió desarrollar un modelo de IA capaz de ofrecer respuestas rápidas o llevar a cabo un razonamiento profundo. La doble funcionalidad de esta IA representa un cambio significativo respecto a los modelos de la competencia.

Etiquetas: cluade , inteligencia artificial , LLM , sonnet | 0 comentarios

¿Qué es la generación aumentada de recuperación (RAG)?

jueves, 13 de febrero de 2025 | Publicado por el-brujo | Editar entrada

La generación mejorada por recuperación (RAG) es el proceso de optimización de la salida de un modelo lingüístico de gran tamaño, de modo que haga referencia a una base de conocimientos autorizada fuera de los orígenes de datos de entrenamiento antes de generar una respuesta. Los modelos de lenguaje de gran tamaño (LLM) se entrenan con grandes volúmenes de datos y usan miles de millones de parámetros para generar resultados originales en tareas como responder preguntas, traducir idiomas y completar frases. RAG extiende las ya poderosas capacidades de los LLM a dominios específicos o a la base de conocimientos interna de una organización, todo ello sin la necesidad de volver a entrenar el modelo. Se trata de un método rentable para mejorar los resultados de los LLM de modo que sigan siendo relevantes, precisos y útiles en diversos contextos.

Etiquetas: inteligencia artificial , LLM | 0 comentarios

Inteligencia artificial en local en tu PC

lunes, 10 de febrero de 2025 | Publicado por el-brujo | Editar entrada

Una lista con las mejores herramientas gratis para instalar modelos de inteligencia artificial de forma local, y así crear tu propio ChatGPT con modelos como DeepSeek, Llama, y más. Se trata de modelos de código abierto, lo que quiere decir que puedes instalarlos y usarlos gratis en tu ordenador.

Etiquetas: inteligencia artificial , LLM , local | 0 comentarios

Europa anuncia OpenEuroLLM, su plan para plantarle cara a Silicon Valley y China con IA de código abierto

martes, 4 de febrero de 2025 | Publicado por el-brujo | Editar entrada

Los grandes avances en materia de inteligencia artificial hoy llegan desde Estados Unidos y China, y eso no es novedad. Sin embargo, Europa no quiere quedarse atrás y aspira a cerrar la brecha de la mano de OpenEuroLLM, un proyecto para crear modelos de lenguaje de próxima generación de código abierto.

Etiquetas: europa , inteligencia artificial , LLM | 0 comentarios

¿Qué son los tokens en el contexto de los LLM?

jueves, 30 de enero de 2025 | Publicado por el-brujo | Editar entrada

Los tokens son palabras, juegos de caracteres o combinaciones de palabras y signos de puntuación generados por modelos de lenguaje grandes (LLM) cuando descomponen texto. La tokenización es el primer paso del entrenamiento. El LLM analiza las relaciones semánticas entre tokens, como la frecuencia con la que se usan juntos o si se usan en contextos similares. Después del entrenamiento, el LLM usa esos patrones y relaciones para generar una secuencia de tokens de salida en función de la secuencia de entrada.

Etiquetas: inteligencia artificial , LLM , tokens | 0 comentarios

¿Qué es el destilado de una LLM?

| Publicado por el-brujo | Editar entrada

La destilación es una técnica de entrenamiento de LLM en la que un modelo más pequeño y eficiente (como GPT-4o mini) se entrena para imitar el comportamiento y los conocimientos de un modelo más grande y complejo (como GPT-4o).

Etiquetas: destilado , inteligencia artificial , LLM | 0 comentarios

Instalar DeepSeek (destilado) con Ollama en tu ordenador para usarlo de forma local

martes, 28 de enero de 2025 | Publicado por el-brujo | Editar entrada

Cómo instalar DeepSeek en tu ordenador, para poder utilizarlo cuando quieras. Hay varias maneras de hacerlo, pero nosotros vamos a intentar recurrir a una de las más sencillas que sean posibles, y que funcione tanto con Windows como con macOS y GNU Linux.

Etiquetas: deepseek , LLM , ollama | 4 comentarios

DeepSeek, la herramienta china que revoluciona la IA mundial

lunes, 27 de enero de 2025 | Publicado por el-brujo | Editar entrada

Con una inteligencia artificial cada vez más presente en nuestros dispositivos, hay una aplicación que está rompiendo moldes actualmente. Y no es ChatGPT: DeepSeek, una app basada en los modelos chinos de ese mismo nombre, brinda una herramienta realmente completa, potente y sin coste. Encima, es Open Source. Y se puede descargar al móvil.

Etiquetas: china , deepseek , inteligencia artificial , LLM | 0 comentarios