by Rain Chu | 4 月 21, 2025 | AI , Chat , 程式開發 , 語音辨識
Views: 3
GibberLink 是一項創新的開源專案,讓 AI 助理之間以更高效的方式進行音頻對話。這項技術於 2025 年的 ElevenLabs 倫敦黑客馬拉松中脫穎而出,獲得了全球首獎。
🔍 GibberLink 是什麼?
GibberLink 是由 Boris Starkov 和 Anton Pidkuiko 兩位開發者在黑客馬拉松期間開發的開源專案。其核心理念是讓 AI 助理在識別到對方也是 AI 時,切換到一種更高效的通訊協議,使用聲波傳輸結構化數據,而非傳統的人類語言。這種方式不僅提高了通訊效率,還減少了計算資源的消耗。
⚙️ GibberLink 的運作原理
初始對話 :兩個 AI 助理以人類語言開始對話。
身份識別 :當其中一方識別到對方也是 AI 助理時,提出切換到 GibberLink 模式。
協議切換 :雙方同意後,切換到使用聲波傳輸數據的通訊協議。
數據傳輸 :利用開源的 ggwave 庫,將結構化數據編碼為聲波信號,進行高效的數據交換。
這種方式類似於早期撥號調製解調器的數據傳輸,但經過現代化的優化,更適合當前的 AI 通訊需求。
🔐 AI 加密對話的實現
GibberLink 不僅提高了通訊效率,還注重數據的安全性。在進行聲波數據交換時,AI 助理會使用非對稱加密技術(如 P-256 密鑰對)進行加密,確保通訊內容的保密性和完整性。這種端對端的加密方式,即使通訊被攔截,也無法解密其中的內容。
🌐 如何體驗 GibberLink?
🏆 為何值得關注?
高效通訊 :GibberLink 模式下的 AI 對話比傳統語音通訊快約 80%,大幅提升了通訊效率。
資源節省 :減少了語音生成和語音識別的計算資源消耗,降低了運營成本。
安全保障 :採用先進的加密技術,確保通訊內容的安全性。
開源共享 :開源的特性使得開發者可以自由使用、修改和擴展該技術。
🔧 GibberLink 安裝與本地部署教學
GibberLink 是一個開源專案,您可以在本地環境中部署並體驗 AI 之間的聲音通訊。
1. 安裝 Node.js(建議版本:v20)
GibberLink 需要 Node.js 環境,建議使用 v18.18.0 或更高版本。以下是使用 NVM 安裝 Node.js 的步驟:
curl -fsSL https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.4/install.sh | bash
source ~/.bashrc
nvm install 20
nvm use 20
nvm alias default 20 # 可選,將 Node.js 20 設為預設版本
2.下載並設定 GibberLink 專案
git clone https://github.com/PennyroyalTea/gibberlink.git
cd gibberlink
mv example.env .env
並且編輯 .env
檔案,填入您的 ElevenLabs 和 LLM 提供者的 API 金鑰。
3.安裝相依套件並啟動專案
啟動後,您可以透過瀏覽器訪問 http://localhost:3003
來使用 GibberLink。
參考資料
by Rain Chu | 8 月 2, 2024 | AI , 語音辨識
Views: 352
這裡整理了自己試過可以使用的語音指令,當然一定還有很多指令我沒試出來,有試過的可以分享給我,我也會陸續增刪
音樂相關
播放藍芽音樂
暫停音樂
停止播放
停掉音樂
上一首歌
下一首歌
切換音樂來源成USB
切換音樂來源
打開廣播
啟動廣播
調到FM91.7
上一個頻道
上一個電台
切換下一個電台
播放下一個電台
暫停收音機
播放收音機
把電台加入我的收藏
把電台從我的收藏裡刪除
從收藏中移除電台
降低音量
音量調高
音量靜音
取消靜音
導航指令
系統控制類型
打開藍芽
關閉藍芽
增加螢幕亮度
設定螢幕亮度為最高
降低螢幕亮度
開啟頭燈
關上大燈
打開360度攝像機
關閉360度攝像頭
門窗控制
打開窗戶
窗戶開一半
關閉窗戶
車窗開四分之一
開一點車窗
解鎖車門
解鎖後門
鎖上車門
鎖上後面的門
詢問資訊
剩餘里程?
電池還有多少電?
胎壓是多少?
我能開多遠?
現在幾點?
今天幾號?
我的駕駛模式是?
通訊方法
空調控制
打開冷氣
冷氣調到25度
關閉冷氣
加大冷氣的風量
減少冷氣的風量
冷氣風量設置為5
TURING 用 Stable Diffusion 畫 EV 概念車 – 雨 (rain.tips)
by Rain Chu | 3 月 24, 2024 | AI , 語音辨識
Views: 39
Whisper 是一種由 OpenAI 開發的先進語音識別系統,Whisper 的獨特之處在於其能夠處理多種語言和方言,以及在各種噪音環境下保持高水準的準確率。這一技術的開發代表了語音識別領域的一個重要進步,為多種應用場景提供了強大的支持,從自動字幕生成到語音指令的處理,再到多語言溝通的促進。
Large 3 更新
2023年末的更新版本,Large 3 ,來到了3.1GB,測試後,中文的理解能力已經來到了大學生等級,相當的實用,但也相當吃硬體資源
Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
如果不想安裝,只想立即使用的話,可以先點選線上版本的,直接可以測試他的效果如何,再來想應用或是考慮是否要在本地端架設一套起來
技術背景
Whisper 基於深度學習模型,特別是利用了大規模語音數據集來訓練其識別算法。這使得 Whisper 不僅能夠識別標準發音的話語,還能識別口音、方言以及非正式或口語化的表達。OpenAI 通過分析大量的語音數據,使 Whisper 能夠理解和處理語速變化、背景噪音干擾以及講話者間的交談。
功能與應用
Whisper 的應用範圍廣泛,從提高輔助聽力設備的性能到增強虛擬助理的理解能力,再到改善自動翻譯系統的質量。在教育領域,它可以幫助創建更加無障礙的學習材料,為聽障學生提供即時字幕。在媒體行業,Whisper 可以用於自動生成新聞報導或視頻內容的字幕,大大提高生產效率並擴大觀眾範圍。
性能與準確性
OpenAI 對 Whisper 的測試表明,其在多種語言和口音的識別上達到了極高的準確性。此外,Whisper 能夠辨識並適當處理專有名詞、術語以及其他複雜的語言結構。這種高水平的準確性不僅對於提供質量高的轉錄服務至關重要,也是使語音交互系統更加可靠和實用的關鍵。
下載資源
OpenAI Whisper
編譯好可以直接使用的程式
CPU版本Whisper ,Buzz 適合沒有GPU的情景使用
文章內整理了編譯版本,可以離線下載使用
by Rain Chu | 10 月 9, 2023 | AI , 語音辨識
Views: 13
Good Tape :每位記者的最佳助手
新聞記者同仁,是時候給你的筆記和錄音機進行一次升級了!我們都知道,在報導新聞的過程中,進行深度的訪談以獲得第一手資料是不可或缺的。但是,錄下來的訪談音檔真的有足夠的時間逐字逐句去轉錄嗎?對大多數的記者來說,轉錄不僅是時間消耗的過程,還可能會有遺漏或誤解的風險。
Good Tape 是一個線上工具,能夠將你的錄音文件快速且精確地轉為文字檔,大幅縮短你的工作時間,提高工作效率。不僅如此,其使用 OpenAI 的先進技術,確保每句話的準確性和細節都不會遺失。
不管你是在前線採訪還是在辦公室整理稿件,Good Tape 都能成為你的得力助手。現在,再也不用擔心漏掉訪談中的任何重要細節,只需一鍵,你的訪談內容就能完整地展現在眼前。
1. 🔧 功能強大:
Good Tape 是一款線上工具,自動將錄音轉為文字檔的逐字稿。過去,這樣的技術經常受到語言和準確性的限制,但現在不再是問題!Good Tape 運用 OpenAI 的 Whisper 技術,支援包括英文、中文、日文等超過40種語言!
2. ⏰ 省時又精準:
只要簡單上傳錄音,Good Tape 不僅能產生文字檔,還可以提供標記時間的字幕檔(.SRT格式)。還有一個加分點,可以自訂逐字稿的時間間距,讓你的報導更加完善!
3. 🌐 背後的力量:
Good Tape 的推出背後,是由丹麥知名數位報紙 Zetland 創建。他們之所以推出這項服務,是因為看見市場上昂貴、且多只專精於英文的轉錄服務。他們選擇使用了 API 方式串接 Whisper,將這項音訊轉文字檔的強大工具帶給我們。
4. 🛡 安全第一:
Good Tape 保證了每位使用者資料的安全和隱私。傳輸過程已完全加密,而資料將不會離開受GDPR保護的歐盟範疇。更令人安心的是,若你沒有進行註冊,上傳的檔案僅會保存三天,這減少了任何潛在風險。
5. 💰 關於價格:
當然,如此高效的工具會有成本。Good Tape 計劃在不久的將來推出付費方案,但相信與其提供的價值相比,絕對物超所值!
結語:
各位記者朋友,Good Tape 無疑是我們日常工作的一大革新。從今以後,轉錄錄音再也不是煩惱,我們可以專注於最重要的事情 – 報導新聞!
Good Tape
https://www.mygoodtape.com/
延伸閱讀
by Rain Chu | 9 月 4, 2022 | AI , Tool , 人臉辨識 , 圖型處理 , 語音分離 , 語音辨識
Views: 3
一家很有趣的南韓AI公司,秉持著南韓娛樂產業的基底,在北京、加州以及東京都設有分公司,專注再利用AI解決虛擬真人溝通的解決方案,我想有別於日本的二次元文化,南韓更專注於解決真實偶像翅膀硬了就會飛的問題,我想這會是公司的一個大痛點,常常董事會中的討論是為何我要花大錢捧一個人?我想這會是解方。
DeepBrian AI 官網
https://www.deepbrainai.io/
官網有三個主要的解決方案
AI Human AI Studios AI Kiosk
AI Human – 從建立自己的偶像開始
https://www.deepbrainai.io/product/ai-human
可以把多個虛擬人放於你的教育、Youtube、FB上,自由使用
AI Studio – 輸入文字就可以讓虛擬主播替你代言
https://www.deepbrainai.io/product/ai-studios
可以試用看看,https://aistudios.com/demo ,目前預設都是南韓人的臉
AI Studio 的收費方式
AI Kiosk – 把虛擬人放到自助機器中
https://www.deepbrainai.io/product/ai-kiosk
by Rain Chu | 3 月 17, 2022 | AI , Tool , 人臉辨識 , 語音辨識
Views: 25
VIDEO
還記得 2013 年,我用圖形演算法寫了一個跟電視裡面的 Show Girl 玩剪刀、石頭、布,贏的就拿到 Candy ,是真的會從螢幕後面跑出一粒糖果的那種遊戲,靈感來源自於 Candy Crush ,只是我的是真實版本,不能線上玩得,2013 年寫這樣的軟體應該是很厲害的那種,2022 年居然不需要再寫程式碼就可以自己訓練模型,只要在短短的程式碼去呼叫就可以使用它了,What!
2013年版本的圖形辨識手部完玩剪刀、石頭、布
VIDEO
來看看年輕版本的我
Teachable Machine 介紹
Images,圖像分類器,https://medium.com/@warronbebster/4bfffa765866 Sounds,聲音分類器,https://medium.com/@warronbebster/4212fd7f3555 Poses,人體的姿勢分辨器,https://medium.com/@warronbebster/f4f6116f491
Teachable Machine Images
Images 可以很快速且簡易的製作圖像分類器,比起 Microsoft Azure Custom vision 要來的簡單些,但功能要來的少一些,最大的好處是支援 tensorflow 以及 https://www.tensorflow.org/js,這樣可以很快速且方便的讓我把模型放在 Edge 端。
Teachable Machine Sounds
聲音分類器比較難懂,可以看看強者學弟林智源它們公司的產品,簡單的說明,他是可以讓記者在訪問火箭升空的現場時,還可以分離人聲以及火箭的噪音的服務,如果你也想要自行訓練模型的話,就是要用到這個功能了。
迪威智能,https://dwave.cc/
Teachable Machine Poses
一個跟 Processing 、 Kinect 、 OpenNI 類似功能的應用服務,回想在 2011 年拿下微軟的 kinect for windows 第一屆的無限可能獎,說起會拿這個獎也很意外,那天比賽時後其實只取前三名,我在等到第一名公布後都沒有自己的名字後,突然間評審說還有一個跟第一名實在無法區分的獎項,是由評審們討論出來要加開的,叫做無限可能獎,才又找我原本失落的心,不枉費我前一天沒睡覺在開發這套看電子結婚照,還可以虛空把照片抓到自己手機的軟體。
VIDEO
我在 2:19 秒,Motion Welcome
VIDEO
Kinect MotionWelcome Demo
Teachable Machine 的輸出
這是最關鍵的一環,可以輸出各種模型給各種市面上的終端設備使用,Android、Coral、Raspberry Pi、Intel Vino等,這也是我覺得最強大的部分,也是最能說服我採用 Teachable Machine 的功能
Teachable Machine 應用
Teachable Machine 官網
https://teachablemachine.withgoogle.com/
寫在最後,下一次要示範一下如何在 raspberry pi 中,如果大家有想看的題目可以留言給我
近期留言