Select Page
Google IO 2024年春季發表會

Google IO 2024年春季發表會

打算用一句會形容每一個Google IO所發表的AI新功能

2024-05-15- Google IO 10min 彙整

Gemini in workspace

用 google ai 整合並且搜尋你所有在google上的私人資訊,包含用文字搜尋照片(找出女兒游泳的照片),email的彙整,google meet的會議紀錄彙整,Ask Photos with Gemini,Ask with Video

Gemini 1.5 Pro token 1M

相較於其他產品,Gemini 1.5 Pro 的 token 數量可以來到 2M ,大約是1500頁論文,1小時的影片

Gemini 1.5 Flash

輕量型 Gemini ,用於端,有效率

Project Astra

跟昨天的 OpenAI 一樣,可以利用手機的攝像頭即時理解生活的大小事情,包含複雜的程式碼或是只是幫你找到眼鏡

Project Veo

跟 OpenAI SORA 一樣,是影片的生成引擎,可以生成 1080p 的影片 46 秒

TPU Trillium

比起上一代,要快4.7倍

Google AI Search (Gemini Era)

Gemini 客製了一個模型是給搜尋引擎使用,可以產初即時的資訊,有評分過後並且可以信任的資訊,也支援影片搜尋

Gemini Gems

跟 OpenAI 的 GPTs 一樣,可以用自然語言指揮你的AI,但不同的是有支援到 1M Tokens

Youtube AI

可以跟影片對話,提問

PailGemma

Gemma 2 才會支援,27B 參數,針對視覺處理

LearnLM

專作教育市場的 AI 大語言模型,會出題會改作業的時代要來了

Imagen 3

Google 最新的文生圖模型

Music AI Sandbox

提供給專業製作人們使用的 AI 生成音樂工具

AI Teammate (Chip)

協助你協同作業的萬能助理,他能在你開會的時候,幫你調查各種資料,以及解答問題

Circle to search

有了教學平台,當然也會有解題平台,學生可以用 Circle 取圈選題目,查詢答案,並且會提供解題步驟

AI旅行社

幫你規劃旅程

AI 防詐騙

幫你聽電話裡面的人是否有想要詐騙你

結論

整場會議上 AI 被提及 121 次,可見有多重要

OpenAI Spring Update – GPT-4o

OpenAI Spring Update – GPT-4o

這一次OpenAI的2024年春季更新,帶來了虛擬人的真正可行性,因為可以真正即時的交互對談,過程中也真的像極了真人,有語氣,不會笨笨的把句子唸到完畢,完全能理解使用者的指令,並且做出對應的動作,重點還 free

更新說明

Hello GPT-4o | OpenAI

影片如下

Introducing GPT-4o (youtube.com)

重點摘要

realtime

反應速度快、真的超快,再也沒有延遲,可以看看DEMO

有了真的的人類情緒

懂說話者的語氣,你可以緊張、可以不舒服,他都可以感受到

chatgpt 可以用各種語氣回應,甚至連叫他用歌劇的方法也可以

Live research

可以用錄影的方法,了解上下文解題,數學題代公式的也難不倒

也可以用攝像頭看得出來使用者的情緒

Free to everyone

Desktop and Mobile Phones app

https://openai.com/chatgpt/download

Web UI Update

手把手教學安裝 anything-llm (不使用 docker)

手把手教學安裝 anything-llm (不使用 docker)

AnythingLLM是一款全功能的應用程序,支持使用商業或開源的大語言模型(LLM)和向量數據庫建構私有ChatGPT。用戶可以在本地或遠端運行該系統,並利用已有文檔進行智能對話。此應用將文檔分類至稱為工作區的容器中,確保不同工作區間的資料隔離,保持清晰的上下文管理。

特點:多用戶支持、權限管理、內置智能代理(可執行網頁瀏覽、代碼運行等功能)、可嵌入到網站的聊天窗口、多種文檔格式支持、向量數據庫的簡易管理界面、聊天和查詢兩種對話模式、引用文檔內容的展示,以及完善的API支持客戶端定制整合。此外,該系統支持100%雲端部署,Docker部署,且在處理超大文檔時效率高,成本低。

安裝 Anything llm

注意,以下要用 linux 平台安裝,windows 用戶可以用 WSL,推薦用 Ubuntu OS

在自己的 home 目錄下,到 GitHub 中下載原始碼

git clone https://github.com/Mintplex-Labs/anything-llm.git

利用 yarn 作設定資源

cd anything-llm
yarn setup

把環境變數建立起來,後端主機是 NodeJS express

cp server/.env.example server/.env
nano server/.env

密文需要最少12位的字元,檔案的存放路徑也記得改成自己的

JWT_SECRET="my-random-string-for-seeding"
STORAGE_DIR="/your/absolute/path/to/server/storage"

前端的環境變數,先把/api打開即可

# VITE_API_BASE='http://localhost:3001/api' # Use this URL when developing locally
# VITE_API_BASE="https://$CODESPACE_NAME-3001.$GITHUB_CODESPACES_PORT_FORWARDING_DOMAIN/api" # for Github Codespaces
VITE_API_BASE='/api' # Use this URL deploying on non-localhost address OR in docker.

如果你在設定的時候,遇到更新請求,可以跟我著我下面的方法作

把 prisma 更新好

yarn add --dev prisma@latest
yarn add @prisma/client@latest

前端的程式碼

先編譯前端程式碼,前端是由 viteJS + React

cd frontend && yarn build

將編譯好的資料放到 server 的目錄下

cp -R frontend/dist/* server/public/

選項,如果需要用到本地端的 LLM 模型,就把 llama-cpp 下載下來

cd server && npx --no node-llama-cpp download

把資料庫建立好

cd server && npx prisma generate --schema=./prisma/schema.prisma
cd server && npx prisma migrate deploy --schema=./prisma/schema.prisma

Server端是用來處理 api 以及進行向量資料庫的管理以及跟 LLM 交互

Collector 是一個 NodeJS express server,用來作UI處理和解析文檔

cd server && NODE_ENV=production node index.js &
cd collector && NODE_ENV=production node index.js &

更新的指令碼

現在 anything llm 更新速度超快,把這一段指令碼複製起來,方便未來作更新的動作

#!/bin/bash

cd $HOME/anything-llm &&\
git checkout . &&\
git pull origin master &&\
echo "HEAD pulled to commit $(git log -1 --pretty=format:"%h" | tail -n 1)"

echo "Freezing current ENVs"
curl -I "http://localhost:3001/api/env-dump" | head -n 1|cut -d$' ' -f2

echo "Rebuilding Frontend"
cd $HOME/anything-llm/frontend && yarn && yarn build && cd $HOME/anything-llm

echo "Copying to Sever Public"
rm -rf server/public
cp -r frontend/dist server/public

echo "Killing node processes"
pkill node

echo "Installing collector dependencies"
cd $HOME/anything-llm/collector && yarn

echo "Installing server dependencies & running migrations"
cd $HOME/anything-llm/server && yarn
cd $HOME/anything-llm/server && npx prisma migrate deploy --schema=./prisma/schema.prisma
cd $HOME/anything-llm/server && npx prisma generate

echo "Booting up services."
truncate -s 0 /logs/server.log # Or any other log file location.
truncate -s 0 /logs/collector.log

cd $HOME/anything-llm/server
(NODE_ENV=production node index.js) &> /logs/server.log &

cd $HOME/anything-llm/collector
(NODE_ENV=production node index.js) &> /logs/collector.log &
探索Perplexity:黃仁勳與貝佐斯投資的AI知識平台

探索Perplexity:黃仁勳與貝佐斯投資的AI知識平台

在當今快速發展的人工智慧領域中,Perplexity作為一家新興的對話式AI平台公司,於2022年8月成立,迅速吸引了眾多目光。這家新創公司不僅得到了科技界巨頭如黃仁勳和傑夫·貝佐斯等人的重金注資,更是以其創新的知識搜尋平台而聞名。Perplexity提供了一種全新的搜尋體驗,將傳統的網路搜尋與最先進的人工智慧技術結合起來,為使用者遇到的每個問題提供高品質的答案。

Perplexity的特色

  1. 注資背景顯赫:得到黃仁勳、貝佐斯等科技界巨頭的注資,顯示了市場對Perplexity業務模式和未來發展潛力的高度認可。
  2. 創新的知識搜尋平台:Perplexity是一個結合了網路搜尋與人工智慧的對話式AI平台,致力於解決用戶可能遇到的各種問題,無論是學術問題、日常疑惑還是專業咨詢。
  3. 高品質的答案:Perplexity憑藉先進的AI技術,提供的答案品質高於一般搜尋引擎,更加準確、有深度且可靠。
  4. 提供參考來源:為了確保信息的透明度和可信度,Perplexity在提供答案的同時,會附上參考來源,讓用戶可以進一步查證。
  5. 自動推薦追問問題:該平台能夠根據用戶的查詢自動推薦相關的追問問題,豐富用戶的探索過程。
  6. 搜尋YouTube影片:Perplexity不僅限於文本搜尋,還能夠搜索YouTube影片,為用戶提供更多樣化的信息來源。
  7. Chrome擴充工具「Perplexity – AI Companion:Perplexity還推出了一款Chrome擴充工具,讓用戶在瀏覽網頁時能夠更方便地使用其服務。

至於Perplexity的商業模式,它提供了專業版服務,專業版用戶支付每月20美元的費用,便可無限制使用其「Copilot」功能,享受客服支援,甚至可以上傳自己的資料請Perplexity分析。截至目前,Perplexity已擁有約10萬名付費用戶,顯示出其服務的受歡迎程度以及市場的廣大潛力。

https://www.perplexity.ai/

如何踏出開發 Microsoft OpenAI API 的第一步

如何踏出開發 Microsoft OpenAI API 的第一步

想要做自己的 chatGPT ? 想要用自己的 DATA 訓練機器人? 不知道甚麼是 VectorDB,或是想要企業的聊天機器人應用? 還是想要結合EXCEL回答問題,還是想用機器人幫你完成各式各樣的任務。

第一步驟推薦看下面的文章

GitHub – xuhaoruins/Azure-OpenAI-App-Innovation-Workshop

Azure_App_Innovation_Inspiration_Demo · Streamlit (haxu.dev)

Whisper – OpenAI 的開源文字轉語音

Whisper – OpenAI 的開源文字轉語音

Whisper 是一種由 OpenAI 開發的先進語音識別系統,Whisper 的獨特之處在於其能夠處理多種語言和方言,以及在各種噪音環境下保持高水準的準確率。這一技術的開發代表了語音識別領域的一個重要進步,為多種應用場景提供了強大的支持,從自動字幕生成到語音指令的處理,再到多語言溝通的促進。

2025年更新

在 ubuntu 中直接安裝 Whisper

pip install -U openai-whisper

然後輸入 OpenAI KEY

export OPENAI_API_KEY='sk-XXXX'

接下來就可以直接辨識了,不用特別在寫程式

whisper /test.mp3 --model large-v3 --language zh --task transcribe --output_format txt

Large 3 更新

2023年末的更新版本,Large 3,來到了3.1GB,測試後,中文的理解能力已經來到了大學生等級,相當的實用,但也相當吃硬體資源

Whisper JAX

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

如果不想安裝,只想立即使用的話,可以先點選線上版本的,直接可以測試他的效果如何,再來想應用或是考慮是否要在本地端架設一套起來

技術背景

Whisper 基於深度學習模型,特別是利用了大規模語音數據集來訓練其識別算法。這使得 Whisper 不僅能夠識別標準發音的話語,還能識別口音、方言以及非正式或口語化的表達。OpenAI 通過分析大量的語音數據,使 Whisper 能夠理解和處理語速變化、背景噪音干擾以及講話者間的交談。

功能與應用

Whisper 的應用範圍廣泛,從提高輔助聽力設備的性能到增強虛擬助理的理解能力,再到改善自動翻譯系統的質量。在教育領域,它可以幫助創建更加無障礙的學習材料,為聽障學生提供即時字幕。在媒體行業,Whisper 可以用於自動生成新聞報導或視頻內容的字幕,大大提高生產效率並擴大觀眾範圍。

性能與準確性

OpenAI 對 Whisper 的測試表明,其在多種語言和口音的識別上達到了極高的準確性。此外,Whisper 能夠辨識並適當處理專有名詞、術語以及其他複雜的語言結構。這種高水平的準確性不僅對於提供質量高的轉錄服務至關重要,也是使語音交互系統更加可靠和實用的關鍵。

下載資源

OpenAI Whisper

編譯好可以直接使用的程式

CPU版本Whisper,Buzz 適合沒有GPU的情景使用

文章內整理了編譯版本,可以離線下載使用