iOS10中如何搭建一个语音转文字框架

在2016WWDC大会上，Apple公司介绍了一个很好的语音识别的API,那就是Speechframework。事实上，这个SpeechKit就是Siri用来做语音识别的框架。如今已经有一些可用的语音识别框架，但是它们要么太贵要么不好。在今天的教程里面，我会教你怎样创建一个使用SpeechKit来进行语音转文字的类似Siri的app。

设计AppUI

前提：你需要Xcode 8 beta版本和一个运行iOS 10 beta系统版本的iOS 设备。

先从创建一个新的命名为SpeechToTextDemo的单视图工程开始。接下来，到 Main.storyboard 中添加一个UILabel,一个 UITextView, 和一个 UIButton，你的storyboard应该看起来如下图：

接下来在

ViewController.swift文件中为UITextView

和UIButton定义outlet变量。在这个demo当中，我设置UITextView的名称为“textView”，UIButton的名称为“microphoneButton”。然后创建一个当microphone按钮被点击时会触发的空的按钮执行方法。

@IBActionfunc microphoneTapped(_ sender: AnyObject) {

}

如果你不想从创建最原始工程开始，你可以在在这里下载原始工程然后继续下面的教学指导。

使用SpeechFramework

为了能使用Speech

framework, 你必须首先导入它然后遵循 SFSpeechRecognizerDelegate协议。因此让我们导入这个框架，然后在

ViewController 文件中加上它的协议。现在你的ViewController.swift 文件应该如下所示：

import UIKit

import Speech

class ViewController: UIViewController, SFSpeechRecognizerDelegate {

@IBOutletweak var textView: UITextView!

@IBOutletweak var microphoneButton: UIButton!

override func viewDidLoad() {

super.viewDidLoad()

}

@IBActionfunc microphoneTapped(_ sender: AnyObject) {

}

用户授权

在使用speechframework做语音识别之前，你必须首先得到用户的允许，因为不仅仅只有本地的ios设备会进行识别，苹果的服务器也会识别。所有的语音数据都会被传递到苹果的后台进行处理。因此，获取用户授权是强制必须的。

让我们在 viewDidLoad方法里授权语音识别。用户必须允许app使用话筒和语音识别。首先，声明一个speechRecognizer变量：

private let speechRecognizer = SFSpeechRecognizer(locale: Locale.init(identifier: "en-US")) //1

然后按如下更新 viewDidLoad 方法：

override func viewDidLoad() {

super.viewDidLoad()

microphoneButton.isEnabled = false //2

speechRecognizer.delegate = self //3

SFSpeechRecognizer.requestAuthorization { (authStatus) in //4

var isButtonEnabled = false

switch authStatus { //5

case .authorized:

isButtonEnabled = true

case .denied:

isButtonEnabled = false

print("User denied access to speech recognition")

case .restricted:

isButtonEnabled = false

print("Speech recognition restricted on this device")

case .notDetermined:

isButtonEnabled = false

print("Speech recognition not yet authorized")

}

OperationQueue.main.addOperation() {

self.microphoneButton.isEnabled = isButtonEnabled

}

首先，我们创建一个带有标识符en-US 的SFSpeechRecognizer实例，这样语音识别API就能知道用户说的是哪一种语言。这个实例就是处理语音识别的对象。

我们默认让microphone按钮失效直到语音识别功能被激活。

接下来，把语音识别的代理设置为 self也就是我们的ViewController.

之后，我们必须通过调用SFSpeechRecognizer.requestAuthorization方法来请求语音识别的授权。

最后，检查验证的状态。如果被授权了，让microphone按钮有效。如果没有，打印错误信息然后让microphone按钮失效。

现在如果你认为app跑起来之后你会看到一个授权弹出窗口，那你就错了。如果运行，app会崩溃。好吧，既然知道结果为什么还要问呢？（别打我），看看下面解决方法。

提供授权消息

苹果要求app里所有的授权都要一个自定义的信息。例如语音授权，我们必须请求2个授权：

麦克风使用权。

语音识别。

为了自定义信息，你必须在info.plist 配置文件里提供这些自定义消息。

让我们打开 info.plist配置文件的源代码。首先，右键点击 info.plist。然后选择Open As >Source Code。最后，拷贝下面的XML代码然后在

标记前插入这段代码。

现在你已经在info.plist文件里添加了两个键值：

NSMicrophoneUsageDescription-为获取麦克风语音输入授权的自定义消息。注意这个语音输入授权仅仅只会在用户点击microphone按钮时发生。

NSSpeechRecognitionUsageDescription –语音识别授权的自定义信息

可以自行更改这些消息的内容。现在点击Run按钮，你应该可以编译和成功运行app了，不会报任何错误。

注意：如果稍后在工程运行完成时还没有看到语音输入授权框，那是因为你是在模拟器上运行的程序。iOS模拟器没有权限进入你Mac电脑的麦克风。

处理语音识别

现在我们已经实现了用户授权，我们现在去实现语音识别功能。先从在 ViewController里定义下面的对象开始：

private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?

private var recognitionTask: SFSpeechRecognitionTask?

private let audioEngine = AVAudioEngine()

recognitionRequest对象处理了语音识别请求。它给语音识别提供了语音输入。

reconition task对象告诉你语音识别对象的结果。拥有这个对象很方便因为你可以用它删除或者中断任务。

audioEngine是你的语音引擎。它负责提供你的语音输入。

接下来，创建一个新的方法名叫 startRecording()。

func startRecording() {

if recognitionTask != nil {

recognitionTask?.cancel()

recognitionTask = nil

}

let audioSession = AVAudioSession.sharedInstance()

do {

try audioSession.setCategory(AVAudioSessionCategoryRecord)

try audioSession.setMode(AVAudioSessionModeMeasurement)

try audioSession.setActive(true, with: .notifyOthersOnDeactivation)

} catch {

print("audioSession properties weren't set because of an error.")

}

recognitionRequest = SFSpeechAudioBufferRecognitionRequest()

guard let inputNode = audioEngine.inputNode else {

fatalError("Audio engine has no input node")

}

guard let recognitionRequest = recognitionRequest else {

fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")

}

recognitionRequest.shouldReportPartialResults = true

recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in

var isFinal = false

if result != nil {

self.textView.text = result?.bestTranscription.formattedString

isFinal = (result?.isFinal)!

}

if error != nil || isFinal {

self.audioEngine.stop()

inputNode.removeTap(onBus: 0)

self.recognitionRequest = nil

self.recognitionTask = nil

self.microphoneButton.isEnabled = true

}

})

let recordingFormat = inputNode.outputFormat(forBus: 0)

inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in

self.recognitionRequest?.append(buffer)

}

audioEngine.prepare()

do {

try audioEngine.start()

} catch {

print("audioEngine couldn't start because of an error.")

}

textView.text = "Say something, I'm listening!"

}

这个方法会在StartRecording按钮被点击时调用。它主要功能是开启语音识别然后聆听你的麦克风。我们一行行分析上面的代码：

3-6行 – 检查 recognitionTask是否在运行。如果在就取消任务和识别。

8-15行 – 创建一个AVAudioSession来为记录语音做准备。在这里我们设置session的类别为recording，模式为measurement，然后激活它。注意设置这些属性有可能会抛出异常，因此你必须把他们放入trycatch语句里面。

17行 –实例化recognitionRequest。在这里我们创建了SFSpeechAudioBufferRecognitionRequest对象。稍后我们利用它把语音数据传到苹果后台。

19-21行 – 检查audioEngine（你的设备）是否有做录音功能作为语音输入。如果没有，我们就报告一个错误。

23-25行 –检查recognitionRequest对象是否被实例化和不是nil。

27行–当用户说话的时候让recognitionRequest报告语音识别的部分结果。

29行

– 调用speechRecognizer的recognitionTask

方法来开启语音识别。这个方法有一个completionhandler回调。这个回调每次都会在识别引擎收到输入的时候，完善了当前识别的信息时候，或者被删除或者停止的时候被调用，最后会返回一个最终的文本。

31行 –定义一个布尔值决定识别是否已经结束。

35行 – 如果结果 result 不是nil, 把textView.text 的值设置为我们的最优文本。如果结果是最终结果，设置 isFinal为true。

39-47行 – 如果没有错误或者结果是最终结果，停止audioEngine(语音输入)并且停止 recognitionRequest 和recognitionTask.同时，使Start Recording按钮有效。

50-53行 – 向recognitionRequest增加一个语音输入。注意在开始了recognitionTask之后增加语音输入是OK的。SpeechFramework 会在语音输入被加入的同时就开始进行解析识别。

55行 –准备并且开始audioEngine。

触发语音识别

我们需要保证当创建一个语音识别任务的时候语音识别功能是可用的，因此我们必须给ViewController添加一个代理方法。如果语音输入不可用或者改变了它的状态，那么microphoneButton.enable属性就要被设置。针对这种情况，我们实现了SFSpeechRecognizerDelegate协议的

availabilityDidChange 方法。实现内容看下面：

func speechRecognizer(_ speechRecognizer: SFSpeechRecognizer, availabilityDidChange available: Bool) {

if available {

microphoneButton.isEnabled = true

} else {

microphoneButton.isEnabled = false

}

这个方法会在可用性状态改变时被调用。如果语音识别可用，那么记录按钮record会被设为可用状态。

最后一件事就是我们必须更新响应方法microphoneTapped(sender:):

@IBActionfunc microphoneTapped(_ sender: AnyObject) {

if audioEngine.isRunning {

audioEngine.stop()

recognitionRequest?.endAudio()

microphoneButton.isEnabled = false

microphoneButton.setTitle("Start Recording", for: .normal)

} else {

startRecording()

microphoneButton.setTitle("Stop Recording", for: .normal)

}

在这个方法中，我们必须检查

audioEngine是否正在工作。如果是，app应该停止

audioEngine,中止向recognitionRequest输入音频，让microphoneButton按钮不可用，并且设置按钮的标题为

“StartRecording”

如果 audioEngine 正在工作，app应该调用 startRecording() 并且设置按钮的标题为 “StopRecording”。

非常好！现在可以准备测试app了。把app部署到一个iOS10的设备，然后点击“StartRecording”按钮。去说些什么吧！

注意:

苹果公司对每个设备的识别功能都有限制。具体的限制并不知道，但是你可以联系苹果公司了解更多信息。

苹果公司对每个app也有识别功能限制。

如果你经常遇到限制，请一定联系苹果公司，他们应该可以解决问题。

语音识别会很耗电以及会使用很多数据。

语音识别一次只持续大概一分钟时间。

总结

在这个教程中，你学习到了怎样好好的利用苹果公司开放给开发者的惊人的新语言API，用于语音识别并且转换到文本。Speechframework使用了跟Siri相同的语音识别框架。这是一个相对小的API。但是，它非常强大可以让开发者们开发非凡的应用比如转换一个语音文件到文本文字。

最后编辑于：2017.12.07 00:49:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

iOS10中如何搭建一个语音转文字框架

推荐阅读更多精彩内容