就業培訓首頁
課程設置頁
專業師資
就業詳情
招生簡章
招生問答
學員天地
教學環境
就業明星
支付方式
軟件質量故事

您現在的位置:首頁 > 就業培訓 > 業內新聞 >初識百度AI開放平臺和簡單語音合成

初識百度AI開放平臺和簡單語音合成

初識百度AI開放平臺和簡單語音合成

 

      7月4號,百度2018 AI開發者大會如期舉行,這是百度舉辦的第二屆人工智能大會。本次大會有諸多亮點,比如百度研制的無人駕駛汽車APOLLO正式量產并出口到日本、百度自己研發的AI芯片“昆侖”正式亮相,并借此成為擁有從芯片到人工智能、軟件平臺、人工智能解決方案三位一體的國內AI巨頭。

 

      作為國內最大的搜索引擎,百度在搜索技術和海量數據方面有絕對的壟斷地位,這為百度在國內人工智能領域獨占先機創造了優勢。

 

      這次大會,百度提出一個口號:Everyone can AI。百度提出這樣口號是有底氣的,因為百度利用自身的技術優勢完成了一個AI基礎架構平臺,并開放出來供開發者使用,這個平臺就是百度AI開放平臺。利用這個開放平臺,我們能輕松地使用百度人工智能的基礎架構資源,通過調用其相關API,使我們的應用程序獲得AI功能。

 

      初識百度AI開放平臺

 

      打開百度AI開放平臺(https://ai.baidu.com)的產品服務清單,我們可以看到百度AI開放平臺提供如下類型的服務:

 

      • 語音技術

 

      • 圖像技術

 

      • 人臉與人體識別

 

      • 視頻技術

 

      • AR與VR

 

      • 自然語言處理

 

      • 數據智能

 

      • 知識圖譜

 

      每種類型的服務又包含若干類型的子項API服務,比如對于上面的語音技術,它就包含了下面幾種API服務:

 

      • 語音識別

 

      • 語音合成

 

      • 語音喚醒

 

      • 智能呼叫中心

 

      這些API是基于HTTPS的,通過提供RESTful風格的API為開發者提供服務,比如,語音合成API服務可以將文本轉化成可以播放的音頻文件。

 

      一般而言,使用百度AI服務的步驟為:

 

      1)注冊成為百度AI開放平臺開發者;

 

      2)在百度API開放平臺上創建相關類型的的AI應用,獲得AppID、API Key和Secret Key;

 

      3)調用相關類型的API,獲得AI功能的結果,為開發者的應用服務。

 

      利用百度語音API實現一個簡單的詩歌朗誦應用

 

      這里我們將介紹如何使用百度的語音合成API來寫一個簡單的應用:把一個包含有《面朝大海,春暖花開》詩歌的文本文檔傳化成為音頻文件,然后聽聽機器如何朗誦這首詩歌。

 

      具體步驟如下:

 

      1.注冊百度AI開發者賬號

 

      要使用百度的這些AI服務,你必須要首先要在百度AI開放平臺上注冊成為開發者。百度AI開發者賬號分為個人賬號和企業賬號,無論哪種開發者賬號,都需要實名認證。這里我們注冊的是個人開發者,注冊完后需要進行實名認證。這里的實名認證不但包括姓名、身份證等個人實名信息,還包括個人真實照片等信息。為了方便開發者實名信息認證,百度云移動app集成了百度自家的某些人臉AI服務,提供了刷臉認證,用戶可以下載該app完成實名認證。

 

      當你完成了實名認證后,打開百度AI開放平臺的控制臺頁面,我們可以看到會自動開通如下的AI服務:

 

初識百度AI開放平臺和簡單語音合成”02

 

      2.創建語音合成AI引用

 

      選擇上面百度語音類別,然后創建一個語音應用:

 

初識百度AI開放平臺和簡單語音合成”02

 

      默認情況下,一個語音AI應用同時包含語音識別和語音合成的接口。語音AI應用創建好,會自動分配AppID,App Key和Secret Key,如果開發者要使用百度語音的API服務,這些信息是必要的。如果你熟悉OAuth 2.0 方式的API的調用流程,你會感覺上面的相關術語很熟悉,事實上百度AI應用的API都是采用OAuth 2.0方式的,只不過百度的相關SDK API將這套流程封裝得很好,我們使用時可以無需直接處理。

 

      除此之外,打開應用詳情,可以看到百度為AI應用分配的默認資源,如QPS,對于本例子中的語音合成API,默認QPS是100,如果開發者認為這些資源還不夠,還可以申請更多的服務資源。

 

初識百度AI開放平臺和簡單語音合成”03

 

      3.安裝AI應用SDK,并調用API完成服務

 

      1)安裝SDK

 

      百度語音服務提供了多種編程語言相關的SDK,這里選擇Python版本的。打開百度AI開放平臺語音服務SDK下載頁面(https://ai.baidu.com/sdk#asr),選擇Python SDK。 筆者采用Python官方推薦的主流版本Python 3,本例具體版本是Python 3.6.4。

 

      解壓下載的zip SDK文件后,進入加壓后的目錄:

 

      python setup.py install

 

      2)準備文本材料

 

      準備好詩歌《面朝大海,春暖花開》的文本文件flower.txt,注意標點符號,保存為UTF-8格式的。

 

      3)使用百度語音合成API

 

      利用上面創建的語音應用的AppID, App Key和Secret Key:

 

初識百度AI開放平臺和簡單語音合成”02

 

      調用百度語音合成API:

 

初識百度AI開放平臺和簡單語音合成”02

 

      代碼解釋如下:

 

      讀取文本文件,獲得文本數據,然后作為參數傳入client.synthesis() API,當請求成功后就返回一個音頻格式的數據內容并寫入文件,失敗則打印出錯誤信息。

 

      用戶還可以根據自己的相關需要選擇合成語音時的語速,語調,音量和發聲人選擇,具體參數細節可以參考API文檔(https://ai.baidu.com/docs#/TTS-API/top)

 

      執行上面的代碼,可以發現一個名為poem.mp3的音頻文件產生了,用Windows自帶的Windows Media Player播放可以聽到合成的語音朗誦這首詩。

 

      我們可以發現,機器朗誦的詩歌和人朗誦的相比還是有很大差距,或者我們可以說機器詩歌朗誦是缺乏靈魂的,這是目前AI技術的局限,也是需要努力的方向。隨著百度AI語音的進化,特別是豐富語料之后,我相信相關語音合成效果會越來越好。

 

      與此同時,通過上面的演示,我們可以看到,開發者十分鐘就可以完成一些簡單的文本與語音的轉換。這大大降低了開發者使用AI的難度。如果沒有這些服務,用戶要么自己去實現一套自己的語音合成機器模型和語料庫,或者借助第三方TTS SDK,這樣的開發難度都大很多。

 

      把上面的代碼稍作修改,在文本文件中輸入一些大眾不會念的生僻字,即可實現一個生僻字的念法應用。

 

      除此在外,百度AI開放平臺還提供其他更多更實用的AI服務,讀者可以自行探索,基本開發流程跟本文類似。

 

      后記:

 

      百度作為一家國內頂尖的互聯網和AI公司,其技術實力毋庸置疑,但是百度是一家頗具爭議的公司。在上面的百度AI開放平臺的控制臺中,我們看到百度提供一些人臉識別、內容審查等敏感而又有爭議性的AI服務,這些AI服務在公眾生活中涉及到個人隱私,公眾輿論的熱點事件中應該發揮什么樣的作用,值得我們深思。

 


51Testing咨詢熱線

  • 上海培訓中心:40088-51518
  • 深圳培訓中心:40088-51008
  • 南京培訓中心:40082-15251
  • 武漢培訓中心:40082-10152
  • 杭州培訓中心:40082-18168
  • 北京培訓中心:010-88332393
  • 成都培訓中心:028-85289151
  • 西安培訓中心:40082-15107
  • 合肥培訓中心:40082-52887
  • 蘇州招生中心:0512-65522653
湖南幸运赛车开奖结果