# Powerful Crawler **Repository Path**: simplecoder-1/powerful-crawler ## Basic Information - **Project Name**: Powerful Crawler - **Description**: 功能强大的Windows命令行爬虫软件,支持图片、视频、文本等多种资源的爬取。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-20 - **Last Updated**: 2026-03-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Powerful Crawler 功能强大的Windows命令行爬虫软件,支持图片、视频、文本等多种资源的爬取。 ## 功能特性 - **多资源爬取**: 支持图片、视频、音频、文档等多种资源 - **深度爬取**: 支持多层级页面遍历,可配置爬取深度 - **智能过滤**: 自动识别资源类型,避免重复下载 - **代理支持**: 支持HTTP/HTTPS代理配置 - **并发控制**: 异步请求,支持超时和重试机制 - **灵活配置**: 支持命令行参数灵活配置各项功能 - **断点续传**: 已下载文件自动跳过,节省带宽 ## 支持的资源格式 | 类型 | 格式 | |------|------| | 图片 | jpg, jpeg, png, gif, bmp, webp, svg, ico, tiff | | 视频 | mp4, avi, mov, wmv, flv, webm, mkv, mpeg, 3gp | | 音频 | mp3, wav, ogg, flac, aac, m4a | | 文档 | pdf, doc, docx, xls, xlsx, ppt, pptx, txt, csv, zip, rar | ## 安装 ### 1. 克隆项目 ```bash git clone cd powerful_crawler ``` ### 2. 安装依赖 ```bash pip install -r requirements.txt ``` ## 使用方法 ### 基本用法 ```bash python crawler.py https://example.com ``` ### 常用命令示例 #### 指定输出目录 ```bash python crawler.py https://example.com -o ./downloads ``` #### 设置爬取深度 ```bash python crawler.py https://example.com -d 3 ``` #### 使用代理 ```bash python crawler.py https://example.com -p http://127.0.0.1:7890 ``` #### 仅爬取图片 ```bash python crawler.py https://example.com --images-only ``` #### 仅爬取视频 ```bash python crawler.py https://example.com --videos-only ``` #### 保存HTML页面 ```bash python crawler.py https://example.com --save-html ``` #### 不爬取页面链接 ```bash python crawler.py https://example.com --no-links ``` ## 命令行参数 | 参数 | 说明 | 默认值 | |------|------|--------| | `url` | 要爬取的URL地址 | 必填 | | `-o, --output` | 输出目录 | `./downloads` | | `-d, --depth` | 爬取深度 | 2 | | `-t, --timeout` | 请求超时秒数 | 30 | | `-p, --proxy` | HTTP代理地址 | 无 | | `--max-links` | 每页最大链接数 | 50 | | `--no-links` | 不爬取页面链接 | False | | `--save-html` | 保存HTML页面内容 | False | | `--images-only` | 仅爬取图片 | False | | `--videos-only` | 仅爬取视频 | False | | `--user-agent` | 自定义User-Agent | 浏览器默认 | ## 输出结构 ``` downloads/ ├── images/ # 下载的图片 ├── videos/ # 下载的视频 ├── text/ # 提取的文本内容 └── json/ # JSON格式数据 ``` ## 注意事项 1. 请确保遵守目标网站的robots.txt规则 2. 不要对网站进行过于频繁的请求,设置适当的delay参数 3. 爬取他人网站内容时请注意版权问题 4. 建议使用代理以避免IP被封禁 ## 依赖说明 - `aiohttp`: 异步HTTP客户端 - `requests`: 同步HTTP请求库 - `beautifulsoup4`: HTML解析库 - `lxml`: XML/HTML解析器 - `chardet`: 字符编码检测 ## 许可证 MIT License