# Powerful Crawler

**Repository Path**: simplecoder-1/powerful-crawler

## Basic Information

- **Project Name**: Powerful Crawler
- **Description**: 功能强大的Windows命令行爬虫软件，支持图片、视频、文本等多种资源的爬取。
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-20
- **Last Updated**: 2026-03-20

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Powerful Crawler

功能强大的Windows命令行爬虫软件，支持图片、视频、文本等多种资源的爬取。

## 功能特性

- **多资源爬取**: 支持图片、视频、音频、文档等多种资源
- **深度爬取**: 支持多层级页面遍历，可配置爬取深度
- **智能过滤**: 自动识别资源类型，避免重复下载
- **代理支持**: 支持HTTP/HTTPS代理配置
- **并发控制**: 异步请求，支持超时和重试机制
- **灵活配置**: 支持命令行参数灵活配置各项功能
- **断点续传**: 已下载文件自动跳过，节省带宽

## 支持的资源格式

| 类型 | 格式 |
|------|------|
| 图片 | jpg, jpeg, png, gif, bmp, webp, svg, ico, tiff |
| 视频 | mp4, avi, mov, wmv, flv, webm, mkv, mpeg, 3gp |
| 音频 | mp3, wav, ogg, flac, aac, m4a |
| 文档 | pdf, doc, docx, xls, xlsx, ppt, pptx, txt, csv, zip, rar |

## 安装

### 1. 克隆项目

```bash
git clone <repository_url>
cd powerful_crawler
```

### 2. 安装依赖

```bash
pip install -r requirements.txt
```

## 使用方法

### 基本用法

```bash
python crawler.py https://example.com
```

### 常用命令示例

#### 指定输出目录

```bash
python crawler.py https://example.com -o ./downloads
```

#### 设置爬取深度

```bash
python crawler.py https://example.com -d 3
```

#### 使用代理

```bash
python crawler.py https://example.com -p http://127.0.0.1:7890
```

#### 仅爬取图片

```bash
python crawler.py https://example.com --images-only
```

#### 仅爬取视频

```bash
python crawler.py https://example.com --videos-only
```

#### 保存HTML页面

```bash
python crawler.py https://example.com --save-html
```

#### 不爬取页面链接

```bash
python crawler.py https://example.com --no-links
```

## 命令行参数

| 参数 | 说明 | 默认值 |
|------|------|--------|
| `url` | 要爬取的URL地址 | 必填 |
| `-o, --output` | 输出目录 | `./downloads` |
| `-d, --depth` | 爬取深度 | 2 |
| `-t, --timeout` | 请求超时秒数 | 30 |
| `-p, --proxy` | HTTP代理地址 | 无 |
| `--max-links` | 每页最大链接数 | 50 |
| `--no-links` | 不爬取页面链接 | False |
| `--save-html` | 保存HTML页面内容 | False |
| `--images-only` | 仅爬取图片 | False |
| `--videos-only` | 仅爬取视频 | False |
| `--user-agent` | 自定义User-Agent | 浏览器默认 |

## 输出结构

```
downloads/
├── images/          # 下载的图片
├── videos/         # 下载的视频
├── text/           # 提取的文本内容
└── json/           # JSON格式数据
```

## 注意事项

1. 请确保遵守目标网站的robots.txt规则
2. 不要对网站进行过于频繁的请求，设置适当的delay参数
3. 爬取他人网站内容时请注意版权问题
4. 建议使用代理以避免IP被封禁

## 依赖说明

- `aiohttp`: 异步HTTP客户端
- `requests`: 同步HTTP请求库
- `beautifulsoup4`: HTML解析库
- `lxml`: XML/HTML解析器
- `chardet`: 字符编码检测

## 许可证

MIT License