Lmst

$3 in 5 minutes, that is $36/h. That's the cost of running your own #ClaudeCode inference in a 3rd-party cloud environment using GLM-5 model. The platform in this case was DeepInfra with its serverless deployment, which is touted as the cheapest GPU provider. #LLM #DeepInfra #GLM5 #ClaudeCode #Anthropic #Claude #Gemini #Antigravity

Ich denke in dem Kontext #KI schon ne Weile über #selfhosted KI nach. Meine ersten Versuche waren ernüchternd. Man braucht entsprechende Hardware. Ein ausgedienten Gaming-PC (ca 2 Jahre) sollte es tun.
Wenn der nun allerdings 200W im Durchschnitt braucht (ich las von 700W unter Volllast), sind das bei 5 dank PV autarken Monaten immer noch ca 25€ mtl an Stromkosten. Die Baukosten kommen noch drauf. Dafür kann ich ganz schön viel KI bei #DeepInfra buchen.

Meine Idee:
Default: deepseek-ai/DeepSeek-V3.2
Triage: meta-llama/Llama-3.2-3B-Instruct
Reasoning: deepseek-ai/DeepSeek-R1
Später für Coding: ein Opus oder Qwen

Problem dabei: Damit ich #Deepinfra nutzen kann, muss ich die ID mit einem Vendor-Prefix für das Modell verwenden. Damit kommt aber #OpenClaw nicht klar. 😒 Ich kann die Modelle nicht auswählen. Sie seien nicht erlaubt. (2/x)

DeepInfra (@DeepInfra)

DeepInfra가 GLM-4.7-Flash 벤치에서 @ArtificialAnlys를 제치고 처리량·지연·가격 면에서 우수한 성능을 주장했습니다. 보고된 수치: 105.7 tok/s, 0.24s TTFT, $0.14/1M. 발표자는 더 나은 커널이 동일 예산으로 더 높은 처리량을 준다고 강조해 AI 추론 인프라 최적화와 비용 효율성 관련 중요한 업데이트로 볼 수 있습니다.

https://x.com/DeepInfra/status/2019225015536001145

#deepinfra #glm4.7 #inference #benchmarking

Hab #PaperlessAI entdeckt. Scheint ähnlich wie #PaperlessGPT zu sein. Letzteres hat wohl Stärken bei OCR. Ersteres bei der Zuordnung von Tags und Titel. OCR nutze ich nicht.
Ich hab wegen des Ressourcenverbrauchs #ollama in den Ruhestand geschickt. Ich fand dafür #deepinfra. Dort kann man in der EU gehostete Modelle nutzen, womit die dsgvo greift.
Allerdings bekomme ich es nicht konfiguriert. 🫩 Egal welche Kombination aus BaseURL und Modell ich nehme. Immer kommt 404 beim Speichern der Config. 🙄

DeepInfra bất ngờ tăng giá dịch vụ Llama 3.3 70B lên 2.5 lần chỉ sau một ngày thông báo, từ $0.038/$0.12 lên $0.13/$0.39 mỗi triệu token. Nhiều người dùng đang lo lắng về chi phí tăng đột ngột và tìm cách ứng phó. Có ai cùng gặp tình trạng này không?

#AI #TríTuệNhânTạo #DeepInfra #Pricing #GiáCả #LlamaModel #TechNews #TinCôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1nj6h3o/deepinfra_sudden_25x_price_hike_for_llama_33_70b/

#deepinfra

Client Info