Crawl4AI：开源 LLM 友好型 Web 爬虫和抓取工具

Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫工具，旨在简化异步 Web 爬取和数据提取，专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装，提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行，并能生成结构化的输出，适合各种复杂的爬取场景，工具还具备异步架构和隐私保护功能。

Crawl4AI特点
🆓 完全免费且开源
🚀 性能超快，超越许多付费服务
🤖 LLM 友好的输出格式（JSON、清理的 HTML、markdown）
🌍 支持同时抓取多个 URL
🎨 提取并返回所有媒体标签（图像、音频和视频）
🔗 提取所有外部和内部链接
📚 从页面中提取元数据
🔄 爬取之前用于身份验证、标头和页面修改的自定义钩子
🕵️ 用户代理自定义
🖼️ 截取页面截图
📜 抓取前执行多个自定义 JavaScript
📊 使用 JsonCssExtractionStrategy 生成无需 LLM 的结构化输出
📚 各种分块策略：基于主题、正则表达式、句子等
🧠 高级提取策略：余弦聚类、LLM 等
🎯 CSS 选择器支持精确的数据提取
📝 传递指令/关键字以优化提取
🔒 代理支持，增强隐私和访问
🔄 针对复杂的多页面爬取场景的会话管理
🌐 异步架构，提高性能和可扩展性

在线体验：https://colab.research.google.com/drive/1REChY6fXQf-EaVYLv0eHEWvzlYxGm0pd?usp=sharing

官方文档：https://crawl4ai.com/mkdocs/

GitHub：https://github.com/unclecode/crawl4ai

{{userData.name}}已认证

Crawl4AI：开源 LLM 友好型 Web 爬虫和抓取工具

偷瞄答案

TG订阅频道

TG交流群组

{{userData.name}}已认证

Crawl4AI：开源 LLM 友好型 Web 爬虫和抓取工具

偷瞄答案

您还未加入该圈子

Verbiverse｜基于大模型的智能语言学习辅助工具

iptv-org：全球各国公开可用的 IPTV 频道直播源m3u 37000+频道

Awesome-Chinese-LLM｜中文大模型梳理

AI大型语言模型提供支持的几款开源项目