隨著與 AI 相關的眾多開源項目湧現,開源生態系統可謂迎來了 AI 開源的文藝復興。從 LangChain 的成功開始,許多開源項目紛紛出現,並迅速填補了 AI 行業系統的空白。
開放式 LLM
生成式 AI 的核心 LLM(大型語言模型)主要分為以 GPT 為首的封閉式 LLM 和以 Llama 為代表的開放式 LLM 兩大陣營。Mistral 團隊以開源許可證發布了其模型,並展現了卓越的性能,吸引了眾多關注。開放式 LLM 主要通過 Hugging Face 管理和提供。
**Mixtral-8x7B-Instruct-v0.1**(Apache-2.0)
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0\.1
- 採用了專家混合模型(SMoE)。
- 表現超越了 Llama 2 70B 模型,甚至優於 GPT-3.5 175B 模型。
- 在盲測聊天機器人測試 Chatbot Arena 中排名第三,僅次於 GPT-4 和 Claude-2。
**Llama-2-7b-chat**(Llama 2 社群)
https://huggingface.co/meta-llama/Llama-2-7b-chat
- 適用於月活躍用戶數不超過 7 億的服務的商業使用許可證。
- 基於 Llama-2 進行微調的眾多衍生模型已經問世。
**phi-2**(MIT)
https://huggingface.co/microsoft/phi-2
- MS 發布的 2.7B 參數的輕量級模型。
- 常識、語言理解、邏輯推理測試結果表明,其性能優於 13B 模型。
LLM 推理和服務
為了有效利用經過良好訓練的 LLM,需要一個快速且能夠有效管理計算資源的工具。
**Ollama**(MIT)
https://github.com/jmorganca/ollama
- 可以在 Mac、Linux、Windows 等本地環境中直接運行 7B 級別的 LLM。
- 只需簡單的命令即可下載和運行模型。
- 通過 CLI 管理模型,並可以進行簡單的聊天。
- 通過提供的 API 可以實現各種應用。
**vLLM**(Apache-2.0)
https://github.com/vllm-project/vllm
- 是一個快速且易於使用的 LLM 推理和服務庫。
- 支援 Hugging Face 提供的模型。
- 提供分散式處理、並行處理、串流輸出、OpenAI 相容 API。
- 支援 Nvidia 和 AMD GPU。
**KServe**(Apache-2.0)
https://github.com/kserve/kserve- Kubernetes 環境下可構建的 ML 模型推理平台。- 提供用於擴展、網絡、監控等的抽象介面。
LLM 代理
**LiteLLM**(MIT)
https://github.com/BerriAI/litellm
- 整合了各種 LLM API 並提供代理服務。
- 遵循 OpenAI 的 API 格式。
- 提供用戶端的 API 認證管理。
**One API**(MIT)
https://github.com/songquanpeng/one-api
- 通過標準的 OpenAI API 格式,允許立即訪問所有大型模型。
- 支援各種 LLM 並提供代理服務。
- 支持负载均衡和多部署,并提供用户管理和分组功能。
**AI Gateway**(MIT)
https://github.com/Portkey-AI/gateway
- 提供一個快速且易於使用的 API,連接到 100 多個 LLM。
- 僅需安裝少量數據即可確保快速訪問。
**LLM 監控 Great Expectations**(Apache-2.0)
https://github.com/great-expectations/great_expectations
- 幫助數據團隊通過質量測試、文檔化和分析來建立對數據的共同理解。
- 可以與 CI/CD 管道集成,以便在需要的地方添加數據質量。
**LangFuse**(MIT)
https://github.com/langfuse/langfuse
- 提供開源 LLM 可見性、分析、快速管理、評估、測試、監控、記錄和追蹤。
- 通過視覺化 UI 瀏覽和調試複雜的日誌和追蹤。
- 預計未來將添加企業功能。
**Giskard**(Apache-2.0,雙重許可證)
https://github.com/Giskard-AI/giskard
- 可以自動檢測從表格格式模型到 LLM 的 AI 模型中的漏洞,例如偏差、數據洩露、虛假關聯、幻覺、毒性、安全問題等。
- 通過掃描 AI 模型的漏洞並自動生成測試套件來支援 ML 模型和 LLM 的品質保證流程。
- 提供用於檢測部署的 LLM 應用程式中的 AI 安全風險的 SaaS 平台。(付費)
LLM 框架
LangChain(MIT)
https://github.com/langchain-ai/langchain
- 是一個用於開發由語言模型驅動的應用程式的框架。
- 以 Python 和 Javascript 提供,並提供整合了大量庫的抽象層。
- 也可以將構建的 LangChain 部署為 API。
**LlamaIndex**(MIT)
https://github.com/run-llama/llama_index
- 是一個專注於數據的 LLM 應用程式框架。
- 提供用於收集現有數據源和數據格式(API、PDF、文檔、SQL 等)的數據連接器。
- 提供將數據結構化(索引、圖)的方法,以便 LLM 輕鬆使用。
**Haystack**(Apache-2.0)
https://github.com/deepset-ai/haystack
- 是一個用於簡化構建搜尋增強生成(RAG)、文檔搜尋、問答、答案生成等的 LLM 框架。
- 基於管道概念構建。
**Flowise**(Apache-2.0)
https://github.com/FlowiseAI/Flowise
- 可以通過拖放 UI 構建自定義的 LLM 流程。
**LangFlow**(MIT)
https://github.com/logspace-ai/langflow
- 讓您可以輕鬆地實驗和原型設計 LangChain 管道。
- 使用 CLI 運行,並且支援將 Langflow 部署到 Google Cloud Platform (GCP)。
**Spring AI**(Apache-2.0)
https://github.com/spring-projects/spring-ai
- Spring Framework 提供的 AI 框架(目前尚處於快照狀態)
- 支援 OpenAI 和 MS Azure 基礎的 API 整合,並提供抽象層。
- 目標是利用 AI 模板,使 AI 功能更容易實現且更具擴展性。
**Data Juicer**(Apache-2.0)
https://github.com/alibaba/data-juicer
- 阿里巴巴發布的開源項目,是一個用於 LLM 的一站式數據處理系統。
- 提供了 20 多個可重複使用的組成配方、50 多個核心 OP 以及功能豐富的專用工具包組成的系統化庫。
- 自動生成的報告功能可以執行詳細的數據分析,幫助更深入地了解數據集。
评论0