Sparrow：高效、灵活的开源非结构化数据处理系统

39次阅读

共计 952 个字符，预计需要花费 3 分钟才能阅读完成。

Sparrow 是一个创新的开源解决方案，用于从各种文档和图像中高效提取和处理数据。它能够无缝处理表格、发票、收据等非结构化数据源。Sparrow 以其模块化架构脱颖而出，提供独立的服务和管道，所有这些都经过优化以实现强大的性能。Sparrow 的关键功能之一是可插拔架构，允许用户轻松集成和运行数据提取管道，使用工具和框架如 LlamaIndex、Haystack 或 Unstructured。通过 Ollama 或 Apple MLX，Sparrow 支持本地 LLM 数据提取管道。Sparrow 提供了 API，帮助将数据处理和转换为结构化输出，以便与自定义工作流程集成。

Sparrow 还允许构建独立的 LLM 代理，并通过 API 从系统调用它们。可用的代理包括针对 PDF 处理的 llamaindex、针对图像处理的 vllamaindex 和 vprocessor、针对 PDF 处理的 haystack、函数调用管道 fcall、支持 PDF 和图像处理的 unstructured-light 和 unstructured、以及支持 PDF 和图像处理的 instructor。此外，还有专门的 OCR 服务 sparrow-data-ocr 和用于数据预处理的 sparrow-data-parse 库。

Sparrow 的安装和配置涉及安装 Weaviate 向量数据库、创建虚拟环境、安装依赖项，并通过 CLI 或 API 运行 Sparrow。Sparrow 支持多种数据格式，包括 PDF 和图像文件，并提供了详细的指令来指导用户如何设置和使用 Sparrow。

Sparrow 还提供了 API 端点，允许用户通过 FastAPI 运行本地 LLM RAG 作为 API，方便地与服务交互。API 调用包括数据导入（ingest）和推理（inference）操作，支持不同的代理和数据格式。

最后，Sparrow 遵循 GPL 3.0 许可证，鼓励自由使用、修改和分发软件。对于年收入低于 500 万美元的小型到中型企业（SMEs），Sparrow 提供免费商业使用许可，以减轻财务负担。对于需要更灵活的许可选项的企业，Sparrow 提供双许可证选项，允许在不披露源代码修改的情况下将 Sparrow 集成到专有软件中。

地址

此处含有隐藏内容，请提交评论并审核通过刷新后即可查看！

正文完