简介
只能在Linux与Mac环境运行,Bob涵盖图像识别、视频识别、音频识别等多种机器学习场景,本文主要考虑声纹识别的应用。
数据格式:多维数组
- 底层C++使用Blitz++库,因此在Bob中的多维数组用
bob.blitz.array
表示,其由numpy.ndarray
包装 - 输入的数字信号(图像、视频、音频)统一由
numpy.ndarray
表示,其中,语音信号由2维向量表示,第1维是信道号,第2维是由时间索引的数字信号 - 支持多种WAV格式,不建议直接使用
scipy.io.wavfile
,其数据格式为int
型,Bob可以输出浮点数
文件IO
- 使用HDF5格式(事实上,Sidekit工具包也是如此,将多个数据表单根据路径索引放在一个h5文件中)
- 支持Matlab文件格式,查阅: Matlab(R) I/O Support for Bob
机器学习算法
- PCA/LDA:Bob Linear Machines and Trainers
- MLP:Bob’s Multi-Layer Perceptron Machines
- SVM(接口):Bob-LIBSVM Python Bindings
- Boost:Generalized Boosting Framework using Stump and Look Up Table (LUT) based Weak Classifiers
- K-Means/GMM/JFA/Ivector/PLDA:Expectation Maximization Machine Learning Tools
数据集接口
- 已有数据库接口:Packages
(待完善)
性能评估
(待完善)