guides
speech-to-text
Index

语音转文字

学习如何将音频转换为文本

介绍

语音到文本 API 提供了两个端点,transcriptionstranslations基于我们最先进的开源大型Whisper-v2模型。它们可以用于:

  • 将音频转录成任何语言。

  • 将音频翻译并转录成英语。

文件上传目前限制为 25 MB,并支持以下输入文件类型:mp3mp4mpegmpgam4awavwebm

快速入门

转录

转录 API 的输入是您想要转录的音频文件和所需的音频转录输出文件格式。我们目前支持多种输入和输出文件格式。

# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

默认情况下,响应类型将是包含原始文本的json。

{

“text”:“想象一下你曾经拥有的最疯狂的想法,你很好奇它如何扩展到比原来大100倍、1000倍的规模。

....

}

要在请求中设置其他参数,您可以添加更多的 --form 行并使用相关选项。例如,如果您想将输出格式设置为文本,则应添加以下行:

...
--form [email protected] \
--form model=whisper-1 \
--form response_format=text

在这种情况下,输入的音频是德语,输出的文本如下:

你好,我叫沃尔夫冈,来自德国。你今天要去哪里?

目前我们只支持英语翻译。

支持的语言

我们目前通过transcriptionstranslations支持以下语言:

南非荷兰语,阿拉伯语,亚美尼亚语,阿塞拜疆语,白俄罗斯语,波斯尼亚语,保加利亚语,加泰罗尼亚语,中文简体、繁体 ,克罗地亚 、捷克 、丹麦 、荷兰 、英文 、爱沙尼亚 、芬兰 、法国 、加利西亚(西班牙), 德国 , 希腊 , 希伯来 , 印地 , 匈牙利, 冰岛, 印度尼西亞, 意大利, 日本語, 卡纳达 (卡纳拉),哈萨克斯坦(哈萨克) , 韩国 (朝鲜) , 拉脱维亚 (列托) ,立陶宛 (立陶宛人) ,马其顿 (马其顿人),马来西雅(马来),马拉提(印度),毛里族(毛里求斯), 尼泊尔 (尼泊尔人) ,挪威 (挪威人) , 波斯語/ فارسی، 波兰语,葡萄牙语,罗马尼亚语,俄罗斯语,塞尔维亚(塞尔维亚人),斯洛伐克 (斯洛伐克人) , 斯洛文尼亚 (斯洛文尼亚) ,西班牙語, 斯瓦希里語, 瑞典語, 塔加路族(菲律宾),泰米爾語/ தமிழ் , 泰国 、土耳其 、乌克兰 、乌尔都语 / اردو، 越南和威尔士。

虽然底层模型是在98种语言上进行训练的,但我们仅列出了超过50%单词错误率(WER)的语言。这是一种行业标准基准测试方法来衡量音频转文字模型的准确性。该模型将返回未列出以上支持的其他所有语言结果,但质量会较低。

更长的输入

默认情况下,Whisper API仅支持小于25 MB的文件。如果您有一个超过此大小的音频文件,则需要将其分成每个不超过25 MB或使用压缩音频格式的块。为了获得最佳性能,我们建议避免在句子中间断开音频,因为这可能会导致一些上下文丢失。

处理此问题的一种方法是使用PyDub开源Python软件包来拆分音频:

from pydub import AudioSegment

song = AudioSegment.from_mp3("good_morning.mp3")

# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000

first_10_minutes = song[:ten_minutes]

first_10_minutes.export("good_morning_10.mp3", format="mp3")

OpenAI 不保证像 PyDub 这样的第三方软件的可用性或安全性。

提示

您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格,因此如果提示也使用大写和标点符号,则更有可能使用它们。但是,当前的提示系统比我们其他语言模型要受限得多,并且仅对生成的音频提供有限控制。以下是一些示例,说明如何在不同情况下使用提示:

  1. 提示对于纠正模型在音频中经常错误识别的特定单词或缩写非常有帮助。例如,以下提示改善了DALL·E和GPT-3这些单词的转录,它们以前被写成“GDP 3”和“DALI”。

这份记录是关于OpenAI的,他们开发了像DALL·E、GPT-3和ChatGPT这样的技术,并希望有一天能够构建一个造福全人类的AGI系统。

  1. 为了保留被分割成片段的文件的上下文,您可以使用前一个片段的转录提示模型。这将使转录更加准确,因为模型将使用先前音频中的相关信息。该模型仅考虑提示的最后224个标记,并忽略任何早期内容。

  2. 有时候,模型可能会跳过转录中的标点符号。您可以通过使用包含标点符号的简单提示来避免这种情况:

你好,欢迎来听我的讲座。

  1. 该模型可能会在音频中省略常见的填充词。如果您想在转录中保留这些填充词,可以使用包含它们的提示:

嗯,让我想想,嗯……好的,这就是我在想的。

  1. 有些语言可以用不同的书写方式来表达,比如简体或繁体中文。模型可能默认使用你所期望的转录书写风格并非总是如此。你可以通过使用符合你偏好的提示来改善这一点。