传奇开心果短博文系列

  • 系列短博文目录
    • Python的文本和语音相互转换库技术点案例示例系列
  • 短博文目录
    • 一、项目背景和目标
    • 二、雏形示例代码
    • 三、扩展思路介绍
    • 四、与其他库和API集成示例代码
    • 五、自定义语音示例代码
    • 六、多语言支持示例代码
    • 七、语音控制应用程序示例代码
    • 八、文本转语音通知示例代码
    • 九、语音交互界面示例代码
    • 十、实现更复杂交互界面示例代码
    • 十一、归纳总结

系列短博文目录

Python的文本和语音相互转换库技术点案例示例系列

短博文目录

一、项目背景和目标


当今社会人工智能机器学习在我国方兴未艾,语音助手无处不在大显神威。大到歼20战斗机语音辅助操控,中到家用小汽车语音辅助操控,小到智能家居语音操控、小爱同学操控音响设备等,可以说语音助手已经深入工作、生活和社会的各个方面。

pyttsx是一个Python库,用于实现文本到语音的转换。它提供了一个使用简单的API,可以很方便地让你的Python程序实现生成语音输出的语音助手。

二、雏形示例代码

下面是一个简单的语音助手示例代码:

  1. 安装 pyttsx 库:

    pip install pyttsx
  2. 导入 pyttsx

    import pyttsx
  3. 创建 pyttsx 的引擎对象:

    engine = pyttsx.init()
  4. 设置语音助手的属性(可选):

    engine.setProperty('rate', 150)# 设置语速(默认为200)engine.setProperty('volume', 0.8)# 设置音量(范围为0.0到1.0)
  5. 将文本转换为语音并播放:

    engine.say("你好,我是语音助手")engine.runAndWait()

    这段代码会将文本 “你好,我是语音助手” 转换为语音并播放出来。

  6. 如果你想将文本保存为音频文件,可以使用 save_to_file 方法:

    engine.save_to_file("你好,我是语音助手", "output.mp3")engine.runAndWait()

    这段代码会将文本 “你好,我是语音助手” 转换为语音,并保存为名为 “output.mp3” 的音频文件。

这只是一个简单的示例,pyttsx 还提供了其他功能,如设置语言、获取可用的语音引擎等。你可以查看 pyttsx 的官方文档以获取更多详细信息和示例代码:https://pyttsx.readthedocs.io/

三、扩展思路介绍

当你熟悉了基本的 pyttsx 库的用法后,你可以进一步扩展你的语音助手的功能。以下是一些扩展思路:

  1. 与其他库和API集成:将 pyttsx 与其他库和API结合使用,以增强语音助手的功能。例如,你可以使用 speech_recognition 库来实现语音识别,将用户的语音输入转换为文本,并使用 pyttsx 将回应转换为语音输出。

  2. 自定义语音:使用 pyttsxsetProperty 方法来调整语音助手的属性,例如语速、音量和音调,以使语音更加自然和适合用户的喜好。

  3. 多语言支持:pyttsx 支持多种语言和语音引擎。你可以通过设置 pyttsxsetProperty 方法来切换语言,从而实现多语言支持的语音助手。

  4. 语音控制应用程序:结合其他库和框架,你可以创建一个可以通过语音控制的应用程序。例如,你可以使用 pyttsxpyautogui 库来实现语音控制鼠标和键盘,从而实现语音导航和操作。

  5. 文本转语音通知:使用 pyttsx 将文本转换为语音,以实现通知功能。你可以将系统的提醒、日程安排、新闻等文本内容转换为语音,并通过语音播放给用户。

  6. 语音交互界面:创建一个交互式的语音界面,让用户可以通过语音与你的应用程序进行交互。你可以使用 pyttsx 结合其他库和框架,例如 pyaudiospeech_recognition,来实现语音输入和输出的交互式界面。

这些是一些扩展思路,你可以根据你的需求和兴趣进一步探索和扩展你的语音助手的功能。记得查阅相关文档和示例代码,以更好地理解和使用相关库和API。

四、与其他库和API集成示例代码


当将 pyttsxspeech_recognition 库结合使用时,你可以实现一个能够接收语音输入并以语音回应的语音助手。以下是一个示例代码:

import speech_recognition as srimport pyttsx3# 创建语音识别器对象recognizer = sr.Recognizer()# 创建语音合成引擎对象engine = pyttsx3.init()# 定义语音助手的回应函数def respond(text):print("助手:", text)engine.say(text)engine.runAndWait()# 语音助手的主循环while True:try:# 使用麦克风录音with sr.Microphone() as source:print("请说话:")audio = recognizer.listen(source)# 识别语音输入text = recognizer.recognize_google(audio, language="zh-CN")print("用户:", text)# 根据用户输入作出回应if "你好" in text:respond("你好!我是语音助手。")elif "再见" in text:respond("再见!祝你有美好的一天!")breakelse:respond("抱歉,我不理解你的意思。")except sr.UnknownValueError:print("抱歉,无法识别你的语音。")except sr.RequestError:print("抱歉,无法连接到语音识别服务。")

这段代码使用 speech_recognition 库来监听麦克风输入,并使用 Google 语音识别服务将语音转换为文本。然后,根据用户的输入作出相应的回应,使用 pyttsx 将回应转换为语音输出。

在这个示例中,语音助手会回应”你好!我是语音助手。”当用户说”你好”时,回应”再见!祝你有美好的一天!“当用户说”再见”时,然后退出程序。对于其他用户输入,语音助手会回应”抱歉,我不理解你的意思。”

请确保已安装 speech_recognitionpyttsx3 库,并根据需要调整语音助手的回应逻辑。你还可以根据需要添加其他功能,例如语音控制、多语言支持等。

五、自定义语音示例代码


当使用 pyttsx3setProperty 方法来自定义语音属性时,你可以调整语音助手的语速、音量和音调等属性,以使语音更加自然和符合用户的喜好。以下是一个示例代码:

import pyttsx3# 创建语音合成引擎对象engine = pyttsx3.init()# 获取当前语音属性rate = engine.getProperty('rate')# 语速volume = engine.getProperty('volume')# 音量pitch = engine.getProperty('pitch')# 音调# 设置新的语音属性engine.setProperty('rate', 150)# 设置语速为150engine.setProperty('volume', 0.8)# 设置音量为0.8engine.setProperty('pitch', 1.2)# 设置音调为1.2# 定义语音助手的回应函数def respond(text):print("助手:", text)engine.say(text)engine.runAndWait()# 测试自定义语音属性respond("你好!我是语音助手。")# 恢复默认语音属性engine.setProperty('rate', rate)# 恢复默认语速engine.setProperty('volume', volume)# 恢复默认音量engine.setProperty('pitch', pitch)# 恢复默认音调# 测试恢复默认语音属性respond("你好!我是语音助手。")

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象。然后,通过 getProperty 方法获取当前的语音属性,包括语速、音量和音调。接下来,使用 setProperty 方法设置新的语音属性,例如将语速设置为150,音量设置为0.8,音调设置为1.2。然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

在示例中,我们先测试了使用自定义语音属性的回应,然后恢复了默认的语音属性,并再次进行了回应测试。

你可以根据需要调整语音属性的值,以使语音更加自然和适合用户的喜好。请注意,具体的语音属性值可能因系统和语音引擎而异。你可以尝试不同的值来找到最适合的设置。

六、多语言支持示例代码


pyttsx3 支持多种语言和语音引擎,你可以通过设置 setProperty 方法来切换语言,从而实现多语言支持的语音助手。以下是一个示例代码:

import pyttsx3# 创建语音合成引擎对象engine = pyttsx3.init()# 获取当前语音属性voices = engine.getProperty('voices')# 打印可用的语音列表print("可用的语音列表:")for voice in voices:print("名称:", voice.name)print("ID:", voice.id)print("语言:", voice.languages)print("性别:", voice.gender)print("")# 设置新的语音属性(切换语言)engine.setProperty('voice', voices[1].id)# 设置语音为第二个可用语音# 定义语音助手的回应函数def respond(text):print("助手:", text)engine.say(text)engine.runAndWait()# 测试多语言支持respond("Hello! I am a multilingual voice assistant.")respond("你好!我是一个多语言语音助手。")# 恢复默认语音属性(切换回默认语言)engine.setProperty('voice', voices[0].id)# 设置语音为第一个可用语音# 测试恢复默认语音属性respond("Hello! I am a multilingual voice assistant.")respond("你好!我是一个多语言语音助手。")

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象,并使用 getProperty 方法获取当前可用的语音列表。然后,我们打印了每个语音的名称、ID、语言和性别等信息。

接下来,使用 setProperty 方法将语音属性设置为第二个可用语音,以切换语言。你可以根据需要选择其他可用的语音。

然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

在示例中,我们先测试了使用第二个可用语音的回应,然后恢复了默认的语音属性,再次进行了回应测试。

你可以根据需要选择合适的语音,以实现多语言支持的语音助手。请注意,可用的语音和语言取决于你的系统和安装的语音引擎。

七、语音控制应用程序示例代码


要创建一个可以通过语音控制的应用程序,你可以结合使用 pyttsx3 和其他库和框架来实现不同的功能。下面是一个示例代码,演示了如何使用 pyttsx3pyautogui 库来实现语音控制鼠标和键盘:

import pyttsx3import speech_recognition as srimport pyautogui# 创建语音合成引擎对象engine = pyttsx3.init()# 创建语音识别器对象recognizer = sr.Recognizer()# 定义语音助手的回应函数def respond(text):print("助手:", text)engine.say(text)engine.runAndWait()# 定义语音控制函数def voice_control():with sr.Microphone() as source:print("请说话...")audio = recognizer.listen(source)try:# 使用语音识别器将语音转换为文本text = recognizer.recognize_google(audio, language='zh-CN')print("你说:", text)# 根据识别到的文本执行相应的操作if "向上" in text:pyautogui.move(0, -100, duration=0.5)# 向上移动鼠标elif "向下" in text:pyautogui.move(0, 100, duration=0.5)# 向下移动鼠标elif "向左" in text:pyautogui.move(-100, 0, duration=0.5)# 向左移动鼠标elif "向右" in text:pyautogui.move(100, 0, duration=0.5)# 向右移动鼠标elif "点击" in text:pyautogui.click()# 点击鼠标左键elif "退出" in text:respond("再见!")returnelse:respond("抱歉,我无法理解你的指令。")except sr.UnknownValueError:respond("抱歉,无法识别你说的话。")except sr.RequestError:respond("抱歉,无法连接到语音识别服务。")# 继续监听语音输入voice_control()# 启动语音控制respond("你好!我是语音助手。请告诉我你想要做什么。")voice_control()

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象和一个 speech_recognition 的语音识别器对象。然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

接下来,定义了一个语音控制函数 voice_control,该函数使用语音识别器监听麦克风输入,并将语音转换为文本。根据识别到的文本,执行相应的操作,例如移动鼠标、点击鼠标等。

在示例中,我们定义了一些简单的指令,如 “向上”、“向下”、“向左”、“向右”、“点击” 等。你可以根据需要扩展指令和相应的操作。

最后,启动语音控制,语音助手会打招呼并等待你的指令。你可以说出相应的指令,语音助手会执行对应的操作。

请注意,此示例仅演示了如何结合 pyttsx3pyautogui 库实现语音控制鼠标和键盘的功能。根据你的需求,你可以结合其他库和框架来实现更复杂的语音控制应用程序。

八、文本转语音通知示例代码


pyttsx3 库可以将文本转换为语音,实现通知功能。下面是一个示例代码,演示了如何使用 pyttsx3 将文本内容转换为语音并进行播放:

import pyttsx3# 创建语音合成引擎对象engine = pyttsx3.init()# 定义文本转语音函数def text_to_speech(text):engine.say(text)engine.runAndWait()# 定义通知函数def notify(message):print("通知:", message)text_to_speech(message)# 示例用法notify("这是一条通知消息。")notify("你的日程安排已更新。")notify("以下是今天的新闻摘要:")notify("这是一条很长的通知消息,可以包含多个句子和段落。")# 关闭语音合成引擎engine.stop()

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象。然后,定义了一个文本转语音函数 text_to_speech,该函数使用语音合成引擎将文本转换为语音并进行播放。

接下来,定义了一个通知函数 notify,该函数接受一个文本消息作为参数,并打印通知消息并通过语音播放。

在示例中,我们使用 notify 函数演示了几个通知消息的例子。你可以根据需要调用 notify 函数,将不同的文本内容转换为语音进行通知。

最后,我们通过调用 engine.stop() 来关闭语音合成引擎。

请注意,使用 pyttsx3 进行文本转语音时,可以根据需要设置语音的属性,如语速、音量等。你可以使用 engine.setProperty 方法来设置这些属性。例如,engine.setProperty('rate', 150) 可以设置语速为 150 字符每分钟。

九、语音交互界面示例代码

要创建一个交互式的语音界面,可以结合使用 pyttsx3pyaudiospeech_recognition 等库来实现语音输入和输出的功能。下面是一个示例代码,演示了如何创建一个简单的语音交互界面:

import pyttsx3import speech_recognition as sr# 创建语音合成引擎对象engine = pyttsx3.init()# 创建语音识别器对象recognizer = sr.Recognizer()# 定义语音助手的回应函数def respond(text):print("助手:", text)engine.say(text)engine.runAndWait()# 定义语音交互函数def voice_interaction():with sr.Microphone() as source:print("请说话...")audio = recognizer.listen(source)try:# 使用语音识别器将语音转换为文本text = recognizer.recognize_google(audio, language='zh-CN')print("你说:", text)# 根据用户输入的文本进行相应的回应if "你好" in text:respond("你好!有什么我可以帮助你的吗?")elif "时间" in text:# 这里可以调用其他库或函数获取当前时间并进行回应respond("现在是晚上8点。")elif "退出" in text:respond("再见!")returnelse:respond("抱歉,我无法理解你的指令。")except sr.UnknownValueError:respond("抱歉,无法识别你说的话。")except sr.RequestError:respond("抱歉,无法连接到语音识别服务。")# 继续语音交互voice_interaction()# 启动语音交互respond("你好!我是语音助手。有什么我可以帮助你的吗?")voice_interaction()

在这个示例中,我们首先创建了一个 pyttsx3 的语音合成引擎对象和一个 speech_recognition 的语音识别器对象。然后,定义了一个回应函数 respond,该函数会打印回应文本并使用语音合成引擎进行语音输出。

接下来,定义了一个语音交互函数 voice_interaction,该函数使用语音识别器监听麦克风输入,并将语音转换为文本。根据用户输入的文本,执行相应的回应。

在示例中,我们定义了一些简单的指令,如 “你好” 和 “时间”。根据用户的指令,语音助手会进行相应的回应。你可以根据需要扩展指令和相应的操作。

最后,启动语音交互,语音助手会打招呼并等待用户的指令。你可以通过语音与语音助手进行交互。

请注意,这个示例代码只是一个简单的交互式语音界面的演示。你可以根据自己的需求和应用场景,扩展和定制这个代码,结合其他库和框架实现更复杂的语音交互功能。

十、实现更复杂交互界面示例代码

当扩展和定制语音交互功能时,你可以根据自己的需求和应用场景,结合其他库和框架来实现更复杂的功能。以下是一个示例代码,展示了如何使用 pyttsx3speech_recognitionwikipedia 库来创建一个语音交互的维基百科助手:

import pyttsx3import speech_recognition as srimport wikipedia# 创建语音合成引擎对象engine = pyttsx3.init()# 创建语音识别器对象recognizer = sr.Recognizer()# 定义语音助手的回应函数def respond(text):print("助手:", text)engine.say(text)engine.runAndWait()# 定义语音交互函数def voice_interaction():with sr.Microphone() as source:print("请说话...")audio = recognizer.listen(source)try:# 使用语音识别器将语音转换为文本text = recognizer.recognize_google(audio, language='zh-CN')print("你说:", text)# 根据用户输入的文本进行相应的回应if "你好" in text:respond("你好!有什么我可以帮助你的吗?")elif "维基百科" in text:query = text.replace("维基百科", "").strip()try:# 使用维基百科库获取相关信息summary = wikipedia.summary(query, sentences=2)respond(summary)except wikipedia.exceptions.DisambiguationError as e:respond("请提供更具体的查询内容。")except wikipedia.exceptions.PageError as e:respond("抱歉,找不到相关信息。")elif "退出" in text:respond("再见!")returnelse:respond("抱歉,我无法理解你的指令。")except sr.UnknownValueError:respond("抱歉,无法识别你说的话。")except sr.RequestError:respond("抱歉,无法连接到语音识别服务。")# 继续语音交互voice_interaction()# 启动语音交互respond("你好!我是维基百科助手。有什么我可以帮助你的吗?")voice_interaction()

在这个示例中,我们引入了 wikipedia 库,以便通过维基百科获取相关信息。当用户输入包含 “维基百科” 的指令时,我们使用 wikipedia.summary 函数来获取相关信息的摘要,并将其作为回应进行语音输出。

你可以根据自己的需求和应用场景,扩展和定制这个代码。例如,你可以使用其他库来获取天气信息、新闻摘要等,并根据用户的指令进行相应的回应。

请注意,使用维基百科库时,可能会遇到一些异常情况,如歧义性错误或页面错误。在示例中,我们使用了 try-except 块来处理这些异常情况,并作出相应的回应。

希望这个示例代码能够帮助你扩展和定制语音交互功能!

十一、归纳总结

当使用 pyttsx3 库实现语音助手时,以下是一些关键的知识点:

  1. 安装 pyttsx3 库:可以使用 pip 命令来安装 pyttsx3 库,例如 pip install pyttsx3

  2. 初始化语音合成引擎:使用 pyttsx3.init() 函数来创建一个语音合成引擎对象。可以通过调用该对象的方法来进行语音合成。

  3. 设置语音合成属性:可以使用 engine.setProperty(property, value) 方法来设置语音合成的属性。例如,可以设置语速、音量等属性。

  4. 语音合成和播放:使用 engine.say(text) 方法将文本转换为语音。然后,使用 engine.runAndWait() 方法来播放语音。

  5. 支持多种语音引擎:pyttsx3 支持多种语音合成引擎,如 SAPI5、nsss、espeak 等。可以通过 pyttsx3.init(driverName) 指定要使用的语音引擎。

  6. 获取可用的语音引擎列表:可以使用 pyttsx3.init() 函数的 engine.getProperty('voices') 方法来获取可用的语音引擎列表。可以根据需要选择合适的语音引擎。

  7. 设置语音引擎:可以使用 engine.setProperty('voice', voice_id) 方法来设置要使用的语音引擎。可以将 voice_id 设置为语音引擎列表中的一个元素。

  8. 控制语音合成的事件和回调:pyttsx3 提供了一些事件和回调函数,可以用于控制语音合成的过程。例如,可以使用 engine.connect('started', callback_function) 方法来注册一个回调函数,在语音合成开始时触发。

  9. 异步语音合成:pyttsx3 支持异步语音合成,可以使用 engine.startLoop()engine.endLoop() 方法来控制异步合成的循环。

  10. 关闭语音合成引擎:在程序结束时,可以使用 engine.stop()engine.shutdown() 方法来关闭语音合成引擎。

这些是使用 pyttsx3 库实现语音助手时的一些重要知识点。通过了解和掌握这些知识点,你可以更好地使用 pyttsx3 库来实现语音合成的功能。