Select Page
Whisper – OpenAI 的開源文字轉語音

Whisper – OpenAI 的開源文字轉語音

Whisper 是一種由 OpenAI 開發的先進語音識別系統,Whisper 的獨特之處在於其能夠處理多種語言和方言,以及在各種噪音環境下保持高水準的準確率。這一技術的開發代表了語音識別領域的一個重要進步,為多種應用場景提供了強大的支持,從自動字幕生成到語音指令的處理,再到多語言溝通的促進。

Large 3 更新

2023年末的更新版本,Large 3,來到了3.1GB,測試後,中文的理解能力已經來到了大學生等級,相當的實用,但也相當吃硬體資源

Whisper JAX

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

如果不想安裝,只想立即使用的話,可以先點選線上版本的,直接可以測試他的效果如何,再來想應用或是考慮是否要在本地端架設一套起來

技術背景

Whisper 基於深度學習模型,特別是利用了大規模語音數據集來訓練其識別算法。這使得 Whisper 不僅能夠識別標準發音的話語,還能識別口音、方言以及非正式或口語化的表達。OpenAI 通過分析大量的語音數據,使 Whisper 能夠理解和處理語速變化、背景噪音干擾以及講話者間的交談。

功能與應用

Whisper 的應用範圍廣泛,從提高輔助聽力設備的性能到增強虛擬助理的理解能力,再到改善自動翻譯系統的質量。在教育領域,它可以幫助創建更加無障礙的學習材料,為聽障學生提供即時字幕。在媒體行業,Whisper 可以用於自動生成新聞報導或視頻內容的字幕,大大提高生產效率並擴大觀眾範圍。

性能與準確性

OpenAI 對 Whisper 的測試表明,其在多種語言和口音的識別上達到了極高的準確性。此外,Whisper 能夠辨識並適當處理專有名詞、術語以及其他複雜的語言結構。這種高水平的準確性不僅對於提供質量高的轉錄服務至關重要,也是使語音交互系統更加可靠和實用的關鍵。

下載資源

OpenAI Whisper

編譯好可以直接使用的程式

CPU版本Whisper,Buzz 適合沒有GPU的情景使用

文章內整理了編譯版本,可以離線下載使用

Google Gemini Ultra 1.0 發佈了

Google Gemini Ultra 1.0 發佈了

Google AI 真的是一點都不讓人省心,在農曆年時候發佈 Google 最強大的 AI 模型,Gemini Ultra 1.0,試玩下來,再程式語言的部分可以跟GPT4.0同樣的強大,並且可以互補,同為 RD 的基因,只能決定在今天再花錢買了,每個月650元台幣,有2T的空間,加上你的 Gmail 和 Google Docs 可以使用,同等於是 Microsoft 的 Copilot + OpenAI ChatGPT 4.0,當然,我兩個都要,出走的只是我的口袋裡的小朋友。

看看發佈的影片

升級去

官網

需要被注意的AI新創,他要讓所有軟體都可以被AI操控

需要被注意的AI新創,他要讓所有軟體都可以被AI操控

近年來,AI技術在多方面都已發光發熱,其中最具話題性的當屬Adept這家新創公司。微軟的Copilot雖然在Office365的範疇內有著出色的表現,但Adept則有著更宏大的願景——使所有的軟體都能夠被AI所操控。

需要被注意的AI新創,他要讓所有軟體都可以被AI操控

Adept的目標是簡單而直接的:用一句話完成所有任務。他們打造了名為「AI助理」的概念,實際上是透過他們開發的ACT-1模型來實現。這款模型基於深度學習基礎模型Transformer所建構,使其能夠學習與模仿使用者的電腦操作,從而自動執行複雜的任務。舉例而言,使用者只需要在Adept的文本框中簡單輸入指令,ACT-1模型就能夠按照使用者的習慣,自動完成指令中的所有要求。

除此之外,Adept的市值和募資金額也非常驚人。在僅成立一年之內,該公司就成功獲得了超過4億美元的募資,投資方包括了Microsoft、Nvidia、Greylock等知名企業和創投機構。尤其值得一提的是,《Forbes》報導指出,該公司最近以10億美元的估值完成了B輪募資,這無疑再次證明了Adept的商業模型和技術潛力。

作為OpenAI的競爭對手,Adept逆勢籌資,並已經明確表示他們希望開發出新的AI工具。他們的目標是利用AI以全新的方式來操控電腦,真正讓AI成為每一位使用者的個人助理。

從訪談到文字:Good Tape 改寫新聞記者的工作流程

從訪談到文字:Good Tape 改寫新聞記者的工作流程

Good Tape:每位記者的最佳助手

新聞記者同仁,是時候給你的筆記和錄音機進行一次升級了!我們都知道,在報導新聞的過程中,進行深度的訪談以獲得第一手資料是不可或缺的。但是,錄下來的訪談音檔真的有足夠的時間逐字逐句去轉錄嗎?對大多數的記者來說,轉錄不僅是時間消耗的過程,還可能會有遺漏或誤解的風險。

Good Tape 是一個線上工具,能夠將你的錄音文件快速且精確地轉為文字檔,大幅縮短你的工作時間,提高工作效率。不僅如此,其使用 OpenAI 的先進技術,確保每句話的準確性和細節都不會遺失。

不管你是在前線採訪還是在辦公室整理稿件,Good Tape 都能成為你的得力助手。現在,再也不用擔心漏掉訪談中的任何重要細節,只需一鍵,你的訪談內容就能完整地展現在眼前。

1. 🔧 功能強大:

Good Tape 是一款線上工具,自動將錄音轉為文字檔的逐字稿。過去,這樣的技術經常受到語言和準確性的限制,但現在不再是問題!Good Tape 運用 OpenAI 的 Whisper 技術,支援包括英文、中文、日文等超過40種語言!

2. ⏰ 省時又精準:

只要簡單上傳錄音,Good Tape 不僅能產生文字檔,還可以提供標記時間的字幕檔(.SRT格式)。還有一個加分點,可以自訂逐字稿的時間間距,讓你的報導更加完善!

3. 🌐 背後的力量:

Good Tape 的推出背後,是由丹麥知名數位報紙 Zetland 創建。他們之所以推出這項服務,是因為看見市場上昂貴、且多只專精於英文的轉錄服務。他們選擇使用了 API 方式串接 Whisper,將這項音訊轉文字檔的強大工具帶給我們。

4. 🛡 安全第一:

Good Tape 保證了每位使用者資料的安全和隱私。傳輸過程已完全加密,而資料將不會離開受GDPR保護的歐盟範疇。更令人安心的是,若你沒有進行註冊,上傳的檔案僅會保存三天,這減少了任何潛在風險。

5. 💰 關於價格:

當然,如此高效的工具會有成本。Good Tape 計劃在不久的將來推出付費方案,但相信與其提供的價值相比,絕對物超所值!

結語:

各位記者朋友,Good Tape 無疑是我們日常工作的一大革新。從今以後,轉錄錄音再也不是煩惱,我們可以專注於最重要的事情 – 報導新聞!

Good Tape

https://www.mygoodtape.com/

延伸閱讀

AI 文案以及CHAT 資源整理

AI 文案以及CHAT 資源整理

隨著人工智慧技術的發展,AI 文案以及 CHAT 逐漸成為熱門話題。AI 文案是指由人工智慧技術生成的文章,而 CHAT 則是指人工智慧聊天機器人。

AI 文案以及 CHAT 具有以下優勢:

  • 可以提高效率:AI 文案以及 CHAT 可以自動生成文章,從而提高工作效率。
  • 可以降低成本:AI 文案以及 CHAT 可以減少人工成本。
  • 可以提高品質:AI 文案以及 CHAT 可以根據數據生成更優質的文章。

OpenAI

https://openai.com/


Google Gemini (Bard)

https://gemini.google.com/app/

https://bard.google.com/chat (已改名)


Bing Chat

https://www.bing.com/new


Claude

可以一次輸入超長本文,並且讀懂意思後幫你總結的好工具,論文好幫手

https://claude.ai/


Jasper AI

我最早期使用過的文章生成工具,隨時不斷更新,已經成為很多 Blog 內建的工具,優點是有很多框架可以應用和選擇

https://www.jasper.ai/


YouChat


YouChat是一款結合OpenAI GPT-3技術的AI聊天機器人,完全免費為用戶提供服務。它能應答多種問題,從數學、編碼到寫作和歌曲創作。更特別的是,YouChat不只給予答案,還會提供來自Google的資料來源作為參考

https://web.youchat.com/en/login


Chatsonic

Chatsonic的出現可說是一大突破。相較於資料庫停留在2021年前的ChatGPT,Chatsonic擁有Google的支援,能夠提供更即時的資料和最新事件回應。而不止於文字互動,它還增加了語音聽寫功能,讓使用者能夠如同對Alexa發問那般直接以語音提問。

但更令人驚艷的是,Chatsonic還能進行影像生成,為AI聊天機器人市場帶來新的可能性。

https://chrome.google.com/webstore/detail/chatsonic-chatgpt-with-su/kchaponcodemjigejilffhfchecpgdpf


Socratic

Socratic是一款為學童設計的先進AI聊天機器人,針對學生在學校所遇到的學術困難提供即時的解答。其背後的技術不僅使其能夠進行人類級的對話,還配合有吸引力的視覺元素,以助於深入且生動地解釋問題,進而增強學習效果。

與傳統的教育軟件不同,Socratic的獨特之處在於其行動版App介面。不幸的是,它還未有電腦版供使用。但其最具創新性的功能是允許學童掃描和上傳學習材料,如學習單和作業簿,再由AI進行資料分析並給予回答。

對於那些難倒學童的數學和物理問題,Socratic可以提供專業且精確的解答,使其成為完成學業任務的絕佳工具。從技術角度看,這不僅代表著AI在教育領域的巨大潛力,也展示了AI如何在實際應用中真正助益於學生。

https://socratic.org/


Copy.ai

opy.ai不僅是一個先進的AI驅動文案生成工具,它也是電子商務、社交平台、SEO和業務流程的強大夥伴。這款工具的設計瞄準了現代行銷和業務的核心需求,能快速生成適合各種平台的專業文案。

對於電子商務網站,copy.ai能產生具有吸引力的產品描述和行銷語句,提高轉換率。在社交平台,它可助你創建短而有力的貼文和廣告,增強與目標受眾的連接。

而在SEO領域,這款工具能夠生成優化關鍵字的內容,確保網站或博客在搜索引擎中的排名更加前列。另外,對於業務流程,copy.ai可以協助企業製作報告、計劃書或其他專業文件,減少人工撰寫的時間和成本。

技術角度來看,copy.ai完美結合了自然語言處理技術與商業策略,為行銷和業務專家提供了一款強大且實用的工具。

https://www.copy.ai/


inkforall

專門幫忙SEO的inkforall

是一款專為搜索引擎優化 (SEO) 設計的先進工具,其主要目標是助力內容創作者和網站擁有者在搜索引擎上獲得更佳的排名。在競爭激烈的網路時代,擁有優質的SEO策略成為各大企業和個人品牌的必須,而inkforall則為使用者提供這方面的卓越支持。

從技術角度看,inkforall不僅僅是一個傳統的關鍵字或元標籤優化工具。它結合了先進的自然語言處理技術和大數據分析,能夠對用戶的內容進行深入分析,提供具體而實用的建議。這意味著它能夠辨識內容中的關鍵信息,並建議如何更有效地結構和調整文案,以提高其在搜索引擎的可見性。

除了這些功能,inkforall還允許使用者進行競爭對手分析、回鏈策略建議以及其他先進的SEO技巧,使其在網路上脫穎而出。

對於科技和行銷專家而言,inkforall提供了一套完整的解決方案,使他們能夠在SEO戰場上取得領先。這款工具是現代內容行銷策略中不可或缺的一部分,並證明了技術如何能夠在實際商業應用中帶來真正的價值。

https://inkforall.com/


perplexity

Perplexity,一款以Chrome擴充功能形式出現的創新工具,旨在革新我們探索和分享資訊的方式。在今天的數位時代,資訊的獲取和管理方式變得越來越多樣化,但Perplexity則將這一過程提升到了一個全新的層次。

從技術的角度來看,Perplexity不僅僅是一個簡單的瀏覽器插件。它結合了先進的資料分析和自然語言處理技術,使使用者能夠更深入、更直觀地探索網頁內容。它能夠辨識和整合頁面中的主要信息,並以高度彙總的方式呈現,這對於那些經常需要從各種資源中搜集資訊的專業人士來說,無疑是一大福音。

更值得一提的是,Perplexity還擁有強大的分享功能。使用者可以簡單地選擇、標記和彙總他們認為重要的內容,並與同事、朋友或社群迅速分享。這大大提高了資訊交流的效率,並允許使用者更靈活地自定義他們的資訊流。

https://www.perplexity.ai/

相關文章