Tech

OpenClaw et les modèles locaux — Zéro coût API avec Ollama

Guide complet pour faire tourner OpenClaw avec des modèles IA locaux via Ollama. Installation, configuration, performances, et comment atteindre zéro euro de coût API.

OpenClawPro TeamMarch 26, 2026Updated March 26, 20267 min read
Share

OpenClaw et les modèles locaux — Zéro coût API avec Ollama

Le coût des API IA est le premier poste de dépense pour les utilisateurs d'OpenClaw. GPT-4o coûte 2,50 $ par million de tokens en entrée. Claude Sonnet, 3 $. Pour un usage professionnel avec 500 à 1 000 messages par jour, la facture mensuelle atteint facilement 50 à 200 euros. Et elle ne fait qu'augmenter avec l'usage.

La solution : les modèles locaux via Ollama. Zéro coût API, zéro dépendance cloud, zéro fuite de données. Voici comment configurer ça correctement.


Qu'est-ce qu'Ollama ?

Ollama est un outil open-source qui permet de télécharger et d'exécuter des modèles IA sur votre propre machine. Il gère le téléchargement des modèles, la quantification (réduction de la taille en mémoire), et expose une API compatible avec OpenClaw.

Concrètement, Ollama transforme votre VPS ou votre poste de travail en serveur d'IA. Chaque requête est traitée localement. Aucune donnée ne quitte votre réseau.


Prérequis matériels

Soyons clairs sur ce qu'il faut :

Pour un VPS (CPU uniquement)

| Modèle | RAM minimum | Vitesse estimée | |---|---|---| | Phi-4 Mini (3.8B) | 4 Go | 8 – 12 tokens/s | | Llama 3.2 3B | 4 Go | 8 – 12 tokens/s | | Qwen 2.5 7B | 8 Go | 4 – 7 tokens/s | | Mistral Small 3.1 24B | 20 Go | 1 – 3 tokens/s |

En CPU seul, les modèles de 7B et moins sont utilisables pour de la conversation. Au-delà, c'est lent mais fonctionnel pour des tâches asynchrones (résumé, analyse, rédaction en arrière-plan).

Pour un poste de travail avec GPU

| Modèle | VRAM minimum | Vitesse estimée | |---|---|---| | Qwen 2.5 7B | 6 Go | 30 – 50 tokens/s | | Llama 4 Scout (109B MoE) | 24 Go | 15 – 25 tokens/s | | Qwen 3 32B | 20 Go | 10 – 20 tokens/s | | DeepSeek V3 | 128 Go+ | Serveur dédié |

Avec un GPU, tout change. Un RTX 3090 (24 Go VRAM) peut faire tourner des modèles de classe GPT-4 à une vitesse confortable.


Installation pas à pas

1. Installer Ollama

# Linux (VPS ou poste de travail)
curl -fsSL https://ollama.ai/install.sh | sh

# Vérifier l'installation
ollama --version

2. Télécharger un modèle

# Modèle léger pour VPS
ollama pull phi4-mini

# Modèle intermédiaire
ollama pull qwen2.5:7b

# Modèle performant (GPU recommandé)
ollama pull llama4-scout

Le téléchargement prend quelques minutes selon votre connexion. Les modèles sont stockés dans ~/.ollama/models/.

3. Tester le modèle

# Test rapide
ollama run qwen2.5:7b "Résume les avantages du self-hosting en 3 points."

4. Vérifier l'API

Ollama expose une API REST sur le port 11434 :

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "Bonjour, comment ça va ?",
  "stream": false
}'

5. Configurer OpenClaw

Dans la configuration d'OpenClaw, ajoutez Ollama comme provider :

providers:
  - name: ollama-local
    type: ollama
    baseUrl: http://localhost:11434
    defaultModel: qwen2.5:7b
    models:
      - phi4-mini        # Pour les tâches simples
      - qwen2.5:7b       # Usage général
      - qwen2.5-coder:7b # Pour le code

Vous pouvez définir un modèle par défaut et en utiliser d'autres pour des skills spécifiques. Par exemple, utilisez Phi-4 Mini pour la classification et Qwen 2.5 7B pour la rédaction.


Optimiser les performances

Quantification

Les modèles sont disponibles en plusieurs niveaux de quantification :

  • Q8 : qualité quasi-identique au modèle original, utilise 2x moins de mémoire
  • Q4_K_M : bon compromis qualité/taille, recommandé pour la plupart des usages
  • Q2 : fortement dégradé, uniquement pour les machines très limitées
# Ollama télécharge automatiquement la version Q4 par défaut
ollama pull qwen2.5:7b-q4_K_M

Paramètres de contexte

Réduire la fenêtre de contexte économise de la mémoire et accélère les réponses :

# Dans la configuration Ollama
num_ctx: 4096  # Au lieu de 32768 par défaut

Pour la plupart des conversations, 4096 tokens suffisent largement. Augmentez uniquement pour les tâches qui nécessitent un contexte long (analyse de documents, résumé d'articles).

Multi-modèles

La stratégie la plus efficace est d'utiliser plusieurs modèles :

  • Routeur (Phi-4 Mini) : classifie la requête entrante en 0,2 seconde
  • Conversation (Qwen 2.5 7B) : gère les échanges courants
  • Analyse (Qwen 3 32B) : traite les demandes complexes (GPU requis)
  • Code (Qwen 2.5 Coder) : pour la génération et le débogage de code

OpenClaw peut router automatiquement vers le bon modèle selon le type de requête. Les tâches simples restent rapides, les tâches complexes bénéficient d'un modèle plus puissant.


Coût réel : Ollama vs API Cloud

Comparons sur un usage de 30 000 messages par mois (environ 1 000 par jour) :

| | Ollama (VPS 8 Go) | GPT-4o (API) | Claude Sonnet (API) | |---|---|---|---| | Coût serveur | 12 €/mois | 0 € | 0 € | | Coût API | 0 € | ~80 €/mois | ~90 €/mois | | Total mensuel | 12 € | ~80 € | ~90 € | | Total annuel | 144 € | ~960 € | ~1 080 € |

L'économie est massive : 800 à 900 euros par an. Et cet écart se creuse avec l'augmentation de l'usage — le coût Ollama reste fixe tandis que le coût API augmente linéairement.


Qualité : Ollama peut-il rivaliser ?

Soyons honnêtes sur les compromis :

Où Ollama excelle

  • Conversation courante : Qwen 2.5 7B gère très bien les échanges standards
  • Classification et extraction : les petits modèles sont excellents pour trier, catégoriser, extraire des données structurées
  • FAQ et SAV : répondre à des questions récurrentes ne nécessite pas GPT-4
  • Confidentialité : aucune donnée ne quitte votre serveur, point

Où les API cloud restent supérieures

  • Raisonnement complexe : les problèmes multi-étapes, la planification, le raisonnement logique avancé
  • Rédaction créative longue : les textes de plus de 1 000 mots de qualité éditoriale
  • Coding avancé : débogage de systèmes complexes, architecture logicielle
  • Multilingue rare : les langues peu représentées dans les données d'entraînement

La stratégie hybride

La meilleure approche est souvent hybride :

  • 80 % des requêtes traitées par Ollama (tâches simples et moyennes)
  • 20 % routées vers une API cloud (tâches complexes)
  • Coût résultant : 12 € (VPS) + ~16 € (API pour 20 % des requêtes) = 28 €/mois

Vous économisez 60 à 70 % par rapport au tout-API, sans sacrifier la qualité pour les cas exigeants.


Sécurité d'Ollama

Par défaut, Ollama écoute sur localhost uniquement. Si vous devez l'exposer (pour un OpenClaw sur un autre serveur) :

  • Ne l'exposez jamais directement sur Internet
  • Utilisez un reverse proxy nginx avec authentification
  • Activez le chiffrement TLS
  • Restreignez par IP source
# Exemple de configuration nginx pour Ollama
location /ollama/ {
    proxy_pass http://127.0.0.1:11434/;
    auth_basic "Restricted";
    auth_basic_user_file /etc/nginx/.htpasswd;
    allow 10.0.0.0/24;  # Votre réseau interne
    deny all;
}

Conclusion

Ollama transforme le calcul sur l'économie de l'IA. Au lieu de payer à l'usage, vous payez un coût fixe (votre serveur) et vous avez de l'IA illimitée. La qualité est suffisante pour 80 % des cas d'usage professionnels, et la confidentialité est totale.

Si vous débutez, commencez avec Qwen 2.5 7B sur un VPS 8 Go. Si vous avez un GPU, passez directement à Llama 4 Scout ou Qwen 3 32B. Et si vous ne voulez gérer ni le serveur ni Ollama, OpenClawPro propose un proxy Ollama managé avec modèles pré-installés.


Pour aller plus loin, consultez notre classement des 20 meilleurs modèles IA gratuits et notre guide d'installation OpenClaw.

Need help setting up OpenClaw?

Skip the hours of configuration and security hardening. Get a professionally installed, secured, and optimized OpenClaw instance.

View Plans

Related Articles