Select Page

Luxgen n7 語音指令大全

Views: 306

這裡整理了自己試過可以使用的語音指令,當然一定還有很多指令我沒試出來,有試過的可以分享給我,我也會陸續增刪

音樂相關

  • 播放藍芽音樂
  • 暫停音樂
  • 停止播放
  • 停掉音樂
  • 上一首歌
  • 下一首歌
  • 切換音樂來源成USB
  • 切換音樂來源
  • 打開廣播
  • 啟動廣播
  • 調到FM91.7
  • 上一個頻道
  • 上一個電台
  • 切換下一個電台
  • 播放下一個電台
  • 暫停收音機
  • 播放收音機
  • 把電台加入我的收藏
  • 把電台從我的收藏裡刪除
  • 從收藏中移除電台
  • 降低音量
  • 音量調高
  • 音量靜音
  • 取消靜音

導航指令

  • 開啟導航
  • 退出導航
  • 回到首頁
  • 回到主菜單

系統控制類型

  • 打開藍芽
  • 關閉藍芽
  • 增加螢幕亮度
  • 設定螢幕亮度為最高
  • 降低螢幕亮度
  • 開啟頭燈
  • 關上大燈
  • 打開360度攝像機
  • 關閉360度攝像頭

門窗控制

  • 打開窗戶
  • 窗戶開一半
  • 關閉窗戶
  • 車窗開四分之一
  • 開一點車窗
  • 解鎖車門
  • 解鎖後門
  • 鎖上車門
  • 鎖上後面的門

詢問資訊

  • 剩餘里程?
  • 電池還有多少電?
  • 胎壓是多少?
  • 我能開多遠?
  • 現在幾點?
  • 今天幾號?
  • 我的駕駛模式是?

通訊方法

  • 打電話
  • 我要打電話
  • 顯示通訊
  • 最近的通話紀錄

空調控制

  • 打開冷氣
  • 冷氣調到25度
  • 關閉冷氣
  • 加大冷氣的風量
  • 減少冷氣的風量
  • 冷氣風量設置為5

TURING 用 Stable Diffusion 畫 EV 概念車 – 雨 (rain.tips)

Whisper – OpenAI 的開源文字轉語音

Whisper – OpenAI 的開源文字轉語音

Views: 37

Whisper 是一種由 OpenAI 開發的先進語音識別系統,Whisper 的獨特之處在於其能夠處理多種語言和方言,以及在各種噪音環境下保持高水準的準確率。這一技術的開發代表了語音識別領域的一個重要進步,為多種應用場景提供了強大的支持,從自動字幕生成到語音指令的處理,再到多語言溝通的促進。

Large 3 更新

2023年末的更新版本,Large 3,來到了3.1GB,測試後,中文的理解能力已經來到了大學生等級,相當的實用,但也相當吃硬體資源

Whisper JAX

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

如果不想安裝,只想立即使用的話,可以先點選線上版本的,直接可以測試他的效果如何,再來想應用或是考慮是否要在本地端架設一套起來

技術背景

Whisper 基於深度學習模型,特別是利用了大規模語音數據集來訓練其識別算法。這使得 Whisper 不僅能夠識別標準發音的話語,還能識別口音、方言以及非正式或口語化的表達。OpenAI 通過分析大量的語音數據,使 Whisper 能夠理解和處理語速變化、背景噪音干擾以及講話者間的交談。

功能與應用

Whisper 的應用範圍廣泛,從提高輔助聽力設備的性能到增強虛擬助理的理解能力,再到改善自動翻譯系統的質量。在教育領域,它可以幫助創建更加無障礙的學習材料,為聽障學生提供即時字幕。在媒體行業,Whisper 可以用於自動生成新聞報導或視頻內容的字幕,大大提高生產效率並擴大觀眾範圍。

性能與準確性

OpenAI 對 Whisper 的測試表明,其在多種語言和口音的識別上達到了極高的準確性。此外,Whisper 能夠辨識並適當處理專有名詞、術語以及其他複雜的語言結構。這種高水平的準確性不僅對於提供質量高的轉錄服務至關重要,也是使語音交互系統更加可靠和實用的關鍵。

下載資源

OpenAI Whisper

編譯好可以直接使用的程式

CPU版本Whisper,Buzz 適合沒有GPU的情景使用

文章內整理了編譯版本,可以離線下載使用

從訪談到文字:Good Tape 改寫新聞記者的工作流程

從訪談到文字:Good Tape 改寫新聞記者的工作流程

Views: 9

Good Tape:每位記者的最佳助手

新聞記者同仁,是時候給你的筆記和錄音機進行一次升級了!我們都知道,在報導新聞的過程中,進行深度的訪談以獲得第一手資料是不可或缺的。但是,錄下來的訪談音檔真的有足夠的時間逐字逐句去轉錄嗎?對大多數的記者來說,轉錄不僅是時間消耗的過程,還可能會有遺漏或誤解的風險。

Good Tape 是一個線上工具,能夠將你的錄音文件快速且精確地轉為文字檔,大幅縮短你的工作時間,提高工作效率。不僅如此,其使用 OpenAI 的先進技術,確保每句話的準確性和細節都不會遺失。

不管你是在前線採訪還是在辦公室整理稿件,Good Tape 都能成為你的得力助手。現在,再也不用擔心漏掉訪談中的任何重要細節,只需一鍵,你的訪談內容就能完整地展現在眼前。

1. 🔧 功能強大:

Good Tape 是一款線上工具,自動將錄音轉為文字檔的逐字稿。過去,這樣的技術經常受到語言和準確性的限制,但現在不再是問題!Good Tape 運用 OpenAI 的 Whisper 技術,支援包括英文、中文、日文等超過40種語言!

2. ⏰ 省時又精準:

只要簡單上傳錄音,Good Tape 不僅能產生文字檔,還可以提供標記時間的字幕檔(.SRT格式)。還有一個加分點,可以自訂逐字稿的時間間距,讓你的報導更加完善!

3. 🌐 背後的力量:

Good Tape 的推出背後,是由丹麥知名數位報紙 Zetland 創建。他們之所以推出這項服務,是因為看見市場上昂貴、且多只專精於英文的轉錄服務。他們選擇使用了 API 方式串接 Whisper,將這項音訊轉文字檔的強大工具帶給我們。

4. 🛡 安全第一:

Good Tape 保證了每位使用者資料的安全和隱私。傳輸過程已完全加密,而資料將不會離開受GDPR保護的歐盟範疇。更令人安心的是,若你沒有進行註冊,上傳的檔案僅會保存三天,這減少了任何潛在風險。

5. 💰 關於價格:

當然,如此高效的工具會有成本。Good Tape 計劃在不久的將來推出付費方案,但相信與其提供的價值相比,絕對物超所值!

結語:

各位記者朋友,Good Tape 無疑是我們日常工作的一大革新。從今以後,轉錄錄音再也不是煩惱,我們可以專注於最重要的事情 – 報導新聞!

Good Tape

https://www.mygoodtape.com/

延伸閱讀

DeepBrian AI – 養一個你自己的虛擬網紅

DeepBrian AI – 養一個你自己的虛擬網紅

Views: 3

一家很有趣的南韓AI公司,秉持著南韓娛樂產業的基底,在北京、加州以及東京都設有分公司,專注再利用AI解決虛擬真人溝通的解決方案,我想有別於日本的二次元文化,南韓更專注於解決真實偶像翅膀硬了就會飛的問題,我想這會是公司的一個大痛點,常常董事會中的討論是為何我要花大錢捧一個人?我想這會是解方。

DeepBrian AI 官網

https://www.deepbrainai.io/

官網有三個主要的解決方案

  • AI Human
  • AI Studios
  • AI Kiosk

AI Human – 從建立自己的偶像開始

https://www.deepbrainai.io/product/ai-human

可以把多個虛擬人放於你的教育、Youtube、FB上,自由使用

AI Studio – 輸入文字就可以讓虛擬主播替你代言

https://www.deepbrainai.io/product/ai-studios

可以試用看看,https://aistudios.com/demo,目前預設都是南韓人的臉

AI Studio 的收費方式

AI Kiosk – 把虛擬人放到自助機器中

https://www.deepbrainai.io/product/ai-kiosk

Google Teachable Machine 無程式碼建立 AI 模型

Google Teachable Machine 無程式碼建立 AI 模型

Views: 25

還記得 2013 年,我用圖形演算法寫了一個跟電視裡面的 Show Girl 玩剪刀、石頭、布,贏的就拿到 Candy ,是真的會從螢幕後面跑出一粒糖果的那種遊戲,靈感來源自於 Candy Crush ,只是我的是真實版本,不能線上玩得,2013 年寫這樣的軟體應該是很厲害的那種,2022 年居然不需要再寫程式碼就可以自己訓練模型,只要在短短的程式碼去呼叫就可以使用它了,What!

2013年版本的圖形辨識手部完玩剪刀、石頭、布

來看看年輕版本的我

Teachable Machine 介紹

  • Images,圖像分類器,https://medium.com/@warronbebster/4bfffa765866
  • Sounds,聲音分類器,https://medium.com/@warronbebster/4212fd7f3555
  • Poses,人體的姿勢分辨器,https://medium.com/@warronbebster/f4f6116f491

Teachable Machine Images

Images 可以很快速且簡易的製作圖像分類器,比起 Microsoft Azure Custom vision 要來的簡單些,但功能要來的少一些,最大的好處是支援 tensorflow 以及 https://www.tensorflow.org/js,這樣可以很快速且方便的讓我把模型放在 Edge 端。

Teachable Machine Sounds

聲音分類器比較難懂,可以看看強者學弟林智源它們公司的產品,簡單的說明,他是可以讓記者在訪問火箭升空的現場時,還可以分離人聲以及火箭的噪音的服務,如果你也想要自行訓練模型的話,就是要用到這個功能了。

迪威智能,https://dwave.cc/

Teachable Machine Poses

一個跟 Processing 、 Kinect 、 OpenNI 類似功能的應用服務,回想在 2011 年拿下微軟的 kinect for windows 第一屆的無限可能獎,說起會拿這個獎也很意外,那天比賽時後其實只取前三名,我在等到第一名公布後都沒有自己的名字後,突然間評審說還有一個跟第一名實在無法區分的獎項,是由評審們討論出來要加開的,叫做無限可能獎,才又找我原本失落的心,不枉費我前一天沒睡覺在開發這套看電子結婚照,還可以虛空把照片抓到自己手機的軟體。

我在 2:19 秒,Motion Welcome
Kinect MotionWelcome Demo

Teachable Machine 的輸出

這是最關鍵的一環,可以輸出各種模型給各種市面上的終端設備使用,Android、Coral、Raspberry Pi、Intel Vino等,這也是我覺得最強大的部分,也是最能說服我採用 Teachable Machine 的功能

Teachable Machine 應用

Teachable Machine 官網

https://teachablemachine.withgoogle.com/

寫在最後,下一次要示範一下如何在 raspberry pi 中,如果大家有想看的題目可以留言給我

中華電信提供國台語的AI語音轉文字辨識服務(AI聲音濾鏡)

中華電信提供國台語的AI語音轉文字辨識服務(AI聲音濾鏡)

Views: 18

官網:https://voicefilter.com.tw/

AI聲音濾鏡主攻 podcast 市場以及 Youtuber 和會議的需求,這個市場定位跟以前我們做 Safey 一樣,功能也都是一樣的,但有一個強項是他有對台灣人的台灣國語做精準訓練,相當大的程度地符合台灣市場,只是價格定位方面讓有需求的人會考慮比較多,但有需求的人還是可以先進行註冊,會送30分鐘免費體驗,可以先測試是否符合自己的需求。

AI聲音濾鏡完整的使用說明

https://m.eprice.com.tw/tech/talk/1190/5705774/1/

下載說明書

https://voicefilter.com.tw/doc/AI_voice_filter_operation_manual.pdf

價格參考雲端市集,年費約NT7,200元

https://www.tcloud.gov.tw/solution/C91CCCC7228F2111E0531512620A3891#block3

官方影片完整介紹