用開源打造 AI 全棧

隨著與 AI 相關的許多開源軟體的湧現，開源生態系統迎來了名副其實的 AI 開源復興。從 LangChain 的成功開始，許多開源軟體應運而生，迅速填補了 AI 行業系統的空白。

Open LLM

生成式 AI 的核心 LLM (大型語言模型) 主要分為以 GPT 為首的 Closed LLM 和 Llama 系統的 Open LLM 兩大陣營。Mistral 團隊以開源許可證發布了其模型，並展現了出色的性能，吸引了眾多人的關注。Open LLM 主要通過 Hugging Face 管理和提供。

Mixtral-8x7B-Instruct-v0.1(Apache-2.0)

https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0\.1

- 採用了專家混合模型 (SMoE)。

- 性能超越 Llama 2 70B 模型，甚至優於 GPT-3.5 175B。

- 在聊天機器人競技場的盲測中，排名僅次於 GPT-4 和 Claude-2，位居第三。

Llama-2-7b-chat(Llama 2 Community)

https://huggingface.co/meta-llama/Llama-2-7b-chat

- 對於月活躍用戶數不超過 7 億的服務，可以使用商業許可證。

- 已經出現了許多基於 Llama-2 的微調衍生模型。

phi-2(MIT)

https://huggingface.co/microsoft/phi-2

- 由 MS 發布的 2.7B 參數輕量級模型。

- 據稱，在常識、語言理解和邏輯推理方面的測試中，性能優於 13B 模型。

LLM 推理和服務

為了有效地使用經過良好訓練的 LLM，需要一種快速且能有效管理計算資源的工具。

Ollama(MIT)

https://github.com/jmorganca/ollama

- 可以在 Mac、Linux、Windows 等本地環境中直接運行 7B 級別的 LLM。

- 只需簡單的命令即可下載並運行模型。

- 可以使用 CLI 管理模型，並進行簡單的聊天。

- 可以使用提供的 API 進行多種應用。

vLLM(Apache-2.0)

https://github.com/vllm-project/vllm

- 是一個快速且易於使用的 LLM 推理和服務庫。

- 支持 Hugging Face 提供的模型。

- 提供分佈式處理、並行處理、流輸出和 OpenAI 相容 API。

- 支持 Nvidia 和 AMD GPU。

KServe(Apache-2.0)

https://github.com/kserve/kserve- 一個可在 Kubernetes 環境中構建的 ML 模型推理平台。 - 提供用於縮放、網絡和監控的抽象接口。

LLM 代理

LiteLLM(MIT)

https://github.com/BerriAI/litellm

- 整合了各種 LLM API，並提供代理服務。

- 遵循 OpenAI 的 API 格式。

- 提供基於用戶的 API 身份驗證管理。

One API(MIT)

https://github.com/songquanpeng/one-api

- 通過標準 OpenAI API 格式，使您可以立即訪問所有大型模型。

- 支持各種 LLM，並提供代理服務。

- 支持負載均衡和多部署，並提供用戶管理和組功能。

AI Gateway(MIT)

https://github.com/Portkey-AI/gateway

- 提供一個快速且熟悉的 API，可以連接到 100 多個 LLM。

- 僅需安裝少量內容即可確保快速訪問。

LLM Monitoring Great Expectations(Apache-2.0)

https://github.com/great-expectations/great_expectations

- 幫助數據團隊通過質量測試、文檔化和分析來建立對數據的共同理解。

- 與 CI/CD 管道集成，可以在需要的地方添加精確的數據質量。

LangFuse(MIT)

https://github.com/langfuse/langfuse

- 提供開源 LLM 可見性、分析、快速管理、評估、測試、監控、記錄和跟蹤。

- 可以在視覺化 UI 中瀏覽和調試複雜的日誌和跟蹤。

- 將來將添加企業功能。

Giskard(Apache-2.0, Dual License)

https://github.com/Giskard-AI/giskard

- 可以自動檢測從表格格式模型到 LLM 的 AI 模型的漏洞，例如偏差、數據洩露、虛假相關性、幻覺、毒性、安全問題等。

- 掃描 AI 模型的漏洞並自動生成測試套件，從而支持 ML 模型和 LLM 的質量保證流程。

- 提供 SaaS 平台，用於在部署的 LLM 應用程序中檢測 AI 安全風險。（高級版）

LLM 框架

LangChain (MIT)

https://github.com/langchain-ai/langchain

- 一個用於開發由語言模型驅動的應用的框架。

- 提供 Python 和 Javascript 版本，並提供整合了許多庫的抽象層。

- 可以將構建的 LangChain 部署為 API。

LlamaIndex(MIT)

https://github.com/run-llama/llama_index

- 一個專為 LLM 應用程序設計的數據專用框架。

- 提供數據連接器，用於收集現有數據源和數據格式（API、PDF、文檔、SQL 等）。

- 提供將數據結構化（索引、圖表）的方法，以便 LLM 可以輕鬆使用這些數據。

Haystack(Apache-2.0)

https://github.com/deepset-ai/haystack

- 一個 LLM 框架，專注於簡化搜索增強生成 (RAG)、文檔搜索、問答和答案生成等任務的構建。

- 基於管道概念構建。

Flowise(Apache-2.0)

https://github.com/FlowiseAI/Flowise

- 可以使用拖放式 UI 構建自定義 LLM 流程。

LangFlow(MIT)

https://github.com/logspace-ai/langflow

- 使您可以輕鬆地實驗和原型化 LangChain 管道。

- 使用 CLI 運行，並支持將 Langflow 部署到 Google Cloud Platform (GCP)。

Spring AI(Apache-2.0)

https://github.com/spring-projects/spring-ai

- Spring Framework 提供的 AI 框架（目前仍處於快照狀態）

- 支持基於 OpenAI 和 MS Azure 的 API 集成，並提供抽象層。

- 目標是使用 AI 模板，使 AI 功能更易於實現和擴展。

Data Juicer(Apache-2.0)

https://github.com/alibaba/data-juicer

- 阿里巴巴發布的開源項目，是一個面向 LLM 的一站式數據處理系統。

- 提供了一個由 20 多個可重用配置配方、50 多個核心 OP 和功能豐富的專用工具包組成的系統化庫。

- 具有自動生成報告的功能，可以執行詳細的數據分析，從而更深入地了解數據集。