# mindaudio
**Repository Path**: mindspore-lab/mindaudio
## Basic Information
- **Project Name**: mindaudio
- **Description**: MindAudio is an open source all-in-one toolkit for the voice field, witch based on the whole scene AI frame: MindSpore.
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 7
- **Forks**: 0
- **Created**: 2022-11-15
- **Last Updated**: 2025-08-07
## Categories & Tags
**Categories**: multimedia, ai
**Tags**: None
## README
# MindAudio
[


](

)
[](https://github.com/psf/black)
[](https://pycqa.github.io/isort/)
[介绍](#介绍) |
[安装](#安装) |
[快速入门](#快速入门音频数据分析)
[English](README.md) | 中文
## 介绍
MindAudio 是基于 [MindSpore](https://www.mindspore.cn/) 的音频模型和算法工具箱。它提供了一系列用于常见音频数据处理、数据增强、特征提取的 API,方便用户对数据进行预处理。此外,它还提供了一些示例,展示如何利用 mindaudio 建立音频深度学习模型。
下表显示了相应的 `mindaudio` 版本和支持的 `mindspore` 版本。
| mindaudio | mindspore |
|:-----------:|:-------------:|
| main | master |
| 0.4 | 2.3.0/2.3.1 |
| 0.3 | 2.2.10 |
### 数据处理
```python
# read audio
>>> import mindaudio.data.io as io
>>> audio_data, sr = io.read(data_file)
# feature extraction
>>> import mindaudio.data.features as features
>>> feats = features.fbanks(audio_data)
```
## 安装
### Pypi安装
MindAudio的发布版本可以通过`PyPI`安装:
```shell
pip install mindaudio
```
### 源码安装
最新版本的 MindAudio 可以通过如下方式安装:
```shell
git clone https://github.com/mindspore-lab/mindaudio.git
cd mindaudio
pip install -r requirements/requirements.txt
python setup.py install
```
## 快速入门音频数据分析
###
MindAudio 提供了一系列常用的音频数据处理 APIs,可以轻松调用这些 APIs 进行数据分析和特征提取。
```python
>>> import mindaudio.data.io as io
>>> import mindaudio.data.spectrum as spectrum
>>> import numpy as np
>>> import matplotlib.pyplot as plt
# read audio
>>> audio_data, sr = io.read("./tests/samples/ASR/BAC009S0002W0122.wav")
# feature extraction
>>> n_fft = 512
>>> matrix = spectrum.stft(audio_data, n_fft=n_fft)
>>> magnitude, _ = spectrum.magphase(matrix, 1)
# display
>>> x = [i for i in range(0, 256*750, 256)]
>>> f = [i/n_fft * sr for i in range(0, int(n_fft/2+1))]
>>> plt.pcolormesh(x,f,magnitude, shading='gouraud', vmin=0, vmax=np.percentile(magnitude, 98))
>>> plt.title('STFT Magnitude')
>>> plt.ylabel('Frequency [Hz]')
>>> plt.xlabel('Time [sec]')
>>> plt.show()
```
结果如图:

## 贡献方式
我们感谢开发者用户的所有贡献,一起让 MindAudio 变得更好。
贡献指南请参考[CONTRIBUTING.md](CONTRIBUTING.md) 。
## 许可证
MindAudio 遵循[Apache License 2.0](LICENSE)开源协议.
## 引用
如果你觉得 MindAudio 对你的项目有帮助,请考虑引用:
```latex
@misc{MindSpore Audio 2022,
title={{MindSpore Audio}:MindSpore Audio Toolbox and Benchmark},
author={MindSpore Audio Contributors},
howpublished = {\url{https://github.com/mindspore-lab/mindaudio}},
year={2022}
}
```