共计 952 个字符,预计需要花费 3 分钟才能阅读完成。
Sparrow 是一个创新的开源解决方案,用于从各种文档和图像中高效提取和处理数据。它能够无缝处理表格、发票、收据等非结构化数据源。Sparrow 以其模块化架构脱颖而出,提供独立的服务和管道,所有这些都经过优化以实现强大的性能。Sparrow 的关键功能之一是可插拔架构,允许用户轻松集成和运行数据提取管道,使用工具和框架如 LlamaIndex、Haystack 或 Unstructured。通过 Ollama 或 Apple MLX,Sparrow 支持本地 LLM 数据提取管道。Sparrow 提供了 API,帮助将数据处理和转换为结构化输出,以便与自定义工作流程集成。
Sparrow 还允许构建独立的 LLM 代理,并通过 API 从系统调用它们。可用的代理包括针对 PDF 处理的 llamaindex、针对图像处理的 vllamaindex 和 vprocessor、针对 PDF 处理的 haystack、函数调用管道 fcall、支持 PDF 和图像处理的 unstructured-light 和 unstructured、以及支持 PDF 和图像处理的 instructor。此外,还有专门的 OCR 服务 sparrow-data-ocr 和用于数据预处理的 sparrow-data-parse 库。
Sparrow 的安装和配置涉及安装 Weaviate 向量数据库、创建虚拟环境、安装依赖项,并通过 CLI 或 API 运行 Sparrow。Sparrow 支持多种数据格式,包括 PDF 和图像文件,并提供了详细的指令来指导用户如何设置和使用 Sparrow。
Sparrow 还提供了 API 端点,允许用户通过 FastAPI 运行本地 LLM RAG 作为 API,方便地与服务交互。API 调用包括数据导入(ingest)和推理(inference)操作,支持不同的代理和数据格式。
最后,Sparrow 遵循 GPL 3.0 许可证,鼓励自由使用、修改和分发软件。对于年收入低于 500 万美元的小型到中型企业(SMEs),Sparrow 提供免费商业使用许可,以减轻财务负担。对于需要更灵活的许可选项的企业,Sparrow 提供双许可证选项,允许在不披露源代码修改的情况下将 Sparrow 集成到专有软件中。
地址