OpenClaw et les modèles locaux — Zéro coût API avec Ollama

Le coût des API IA est le premier poste de dépense pour les utilisateurs d'OpenClaw. GPT-4o coûte 2,50 $ par million de tokens en entrée. Claude Sonnet, 3 $. Pour un usage professionnel avec 500 à 1 000 messages par jour, la facture mensuelle atteint facilement 50 à 200 euros. Et elle ne fait qu'augmenter avec l'usage.

La solution : les modèles locaux via Ollama. Zéro coût API, zéro dépendance cloud, zéro fuite de données. Voici comment configurer ça correctement.

Qu'est-ce qu'Ollama ?

Ollama est un outil open-source qui permet de télécharger et d'exécuter des modèles IA sur votre propre machine. Il gère le téléchargement des modèles, la quantification (réduction de la taille en mémoire), et expose une API compatible avec OpenClaw.

Concrètement, Ollama transforme votre VPS ou votre poste de travail en serveur d'IA. Chaque requête est traitée localement. Aucune donnée ne quitte votre réseau.

Prérequis matériels

Soyons clairs sur ce qu'il faut :

Pour un VPS (CPU uniquement)

| Modèle | RAM minimum | Vitesse estimée | |---|---|---| | Phi-4 Mini (3.8B) | 4 Go | 8 – 12 tokens/s | | Llama 3.2 3B | 4 Go | 8 – 12 tokens/s | | Qwen 2.5 7B | 8 Go | 4 – 7 tokens/s | | Mistral Small 3.1 24B | 20 Go | 1 – 3 tokens/s |

En CPU seul, les modèles de 7B et moins sont utilisables pour de la conversation. Au-delà, c'est lent mais fonctionnel pour des tâches asynchrones (résumé, analyse, rédaction en arrière-plan).

Pour un poste de travail avec GPU

| Modèle | VRAM minimum | Vitesse estimée | |---|---|---| | Qwen 2.5 7B | 6 Go | 30 – 50 tokens/s | | Llama 4 Scout (109B MoE) | 24 Go | 15 – 25 tokens/s | | Qwen 3 32B | 20 Go | 10 – 20 tokens/s | | DeepSeek V3 | 128 Go+ | Serveur dédié |

Avec un GPU, tout change. Un RTX 3090 (24 Go VRAM) peut faire tourner des modèles de classe GPT-4 à une vitesse confortable.

Installation pas à pas

1. Installer Ollama

# Linux (VPS ou poste de travail)
curl -fsSL https://ollama.ai/install.sh | sh

# Vérifier l'installation
ollama --version

2. Télécharger un modèle

# Modèle léger pour VPS
ollama pull phi4-mini

# Modèle intermédiaire
ollama pull qwen2.5:7b

# Modèle performant (GPU recommandé)
ollama pull llama4-scout

Le téléchargement prend quelques minutes selon votre connexion. Les modèles sont stockés dans ~/.ollama/models/.

3. Tester le modèle

# Test rapide
ollama run qwen2.5:7b "Résume les avantages du self-hosting en 3 points."

4. Vérifier l'API

Ollama expose une API REST sur le port 11434 :

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "Bonjour, comment ça va ?",
  "stream": false
}'

5. Configurer OpenClaw

Dans la configuration d'OpenClaw, ajoutez Ollama comme provider :

providers:
  - name: ollama-local
    type: ollama
    baseUrl: http://localhost:11434
    defaultModel: qwen2.5:7b
    models:
      - phi4-mini        # Pour les tâches simples
      - qwen2.5:7b       # Usage général
      - qwen2.5-coder:7b # Pour le code

Vous pouvez définir un modèle par défaut et en utiliser d'autres pour des skills spécifiques. Par exemple, utilisez Phi-4 Mini pour la classification et Qwen 2.5 7B pour la rédaction.

Optimiser les performances

Quantification

Les modèles sont disponibles en plusieurs niveaux de quantification :

Q8 : qualité quasi-identique au modèle original, utilise 2x moins de mémoire
Q4_K_M : bon compromis qualité/taille, recommandé pour la plupart des usages
Q2 : fortement dégradé, uniquement pour les machines très limitées

# Ollama télécharge automatiquement la version Q4 par défaut
ollama pull qwen2.5:7b-q4_K_M

Paramètres de contexte

Réduire la fenêtre de contexte économise de la mémoire et accélère les réponses :

# Dans la configuration Ollama
num_ctx: 4096  # Au lieu de 32768 par défaut

Pour la plupart des conversations, 4096 tokens suffisent largement. Augmentez uniquement pour les tâches qui nécessitent un contexte long (analyse de documents, résumé d'articles).

Multi-modèles

La stratégie la plus efficace est d'utiliser plusieurs modèles :

Routeur (Phi-4 Mini) : classifie la requête entrante en 0,2 seconde
Conversation (Qwen 2.5 7B) : gère les échanges courants
Analyse (Qwen 3 32B) : traite les demandes complexes (GPU requis)
Code (Qwen 2.5 Coder) : pour la génération et le débogage de code

OpenClaw peut router automatiquement vers le bon modèle selon le type de requête. Les tâches simples restent rapides, les tâches complexes bénéficient d'un modèle plus puissant.

Coût réel : Ollama vs API Cloud

Comparons sur un usage de 30 000 messages par mois (environ 1 000 par jour) :

| | Ollama (VPS 8 Go) | GPT-4o (API) | Claude Sonnet (API) | |---|---|---|---| | Coût serveur | 12 €/mois | 0 € | 0 € | | Coût API | 0 € | ~80 €/mois | ~90 €/mois | | Total mensuel | 12 € | ~80 € | ~90 € | | Total annuel | 144 € | ~960 € | ~1 080 € |

L'économie est massive : 800 à 900 euros par an. Et cet écart se creuse avec l'augmentation de l'usage — le coût Ollama reste fixe tandis que le coût API augmente linéairement.

Qualité : Ollama peut-il rivaliser ?

Soyons honnêtes sur les compromis :

Où Ollama excelle

Conversation courante : Qwen 2.5 7B gère très bien les échanges standards
Classification et extraction : les petits modèles sont excellents pour trier, catégoriser, extraire des données structurées
FAQ et SAV : répondre à des questions récurrentes ne nécessite pas GPT-4
Confidentialité : aucune donnée ne quitte votre serveur, point

Où les API cloud restent supérieures

Raisonnement complexe : les problèmes multi-étapes, la planification, le raisonnement logique avancé
Rédaction créative longue : les textes de plus de 1 000 mots de qualité éditoriale
Coding avancé : débogage de systèmes complexes, architecture logicielle
Multilingue rare : les langues peu représentées dans les données d'entraînement

La stratégie hybride

La meilleure approche est souvent hybride :

80 % des requêtes traitées par Ollama (tâches simples et moyennes)
20 % routées vers une API cloud (tâches complexes)
Coût résultant : 12 € (VPS) + ~16 € (API pour 20 % des requêtes) = 28 €/mois

Vous économisez 60 à 70 % par rapport au tout-API, sans sacrifier la qualité pour les cas exigeants.

Sécurité d'Ollama

Par défaut, Ollama écoute sur localhost uniquement. Si vous devez l'exposer (pour un OpenClaw sur un autre serveur) :

Ne l'exposez jamais directement sur Internet
Utilisez un reverse proxy nginx avec authentification
Activez le chiffrement TLS
Restreignez par IP source

# Exemple de configuration nginx pour Ollama
location /ollama/ {
    proxy_pass http://127.0.0.1:11434/;
    auth_basic "Restricted";
    auth_basic_user_file /etc/nginx/.htpasswd;
    allow 10.0.0.0/24;  # Votre réseau interne
    deny all;
}

Conclusion

Ollama transforme le calcul sur l'économie de l'IA. Au lieu de payer à l'usage, vous payez un coût fixe (votre serveur) et vous avez de l'IA illimitée. La qualité est suffisante pour 80 % des cas d'usage professionnels, et la confidentialité est totale.

Si vous débutez, commencez avec Qwen 2.5 7B sur un VPS 8 Go. Si vous avez un GPU, passez directement à Llama 4 Scout ou Qwen 3 32B. Et si vous ne voulez gérer ni le serveur ni Ollama, OpenClawPro propose un proxy Ollama managé avec modèles pré-installés.

Pour aller plus loin, consultez notre classement des 20 meilleurs modèles IA gratuits et notre guide d'installation OpenClaw.

OpenClaw et les modèles locaux — Zéro coût API avec Ollama

OpenClaw et les modèles locaux — Zéro coût API avec Ollama

Qu'est-ce qu'Ollama ?

Prérequis matériels

Pour un VPS (CPU uniquement)

Pour un poste de travail avec GPU

Installation pas à pas

1. Installer Ollama

2. Télécharger un modèle

3. Tester le modèle

4. Vérifier l'API

5. Configurer OpenClaw

Optimiser les performances

Quantification

Paramètres de contexte

Multi-modèles

Coût réel : Ollama vs API Cloud

Qualité : Ollama peut-il rivaliser ?

Où Ollama excelle

Où les API cloud restent supérieures

La stratégie hybride

Sécurité d'Ollama

Conclusion

Need help setting up OpenClaw?

Related Articles

Les 20 meilleurs modèles IA gratuits pour OpenClaw

OpenClaw vs MyClaw: An Honest Comparison

OpenClaw + Ollama: Zero API Cost with Local Models