by Rain Chu | 11 月 5, 2024 | AI
終於來到電影中的AI操作電腦的情節了,動動嘴巴就可以控制電腦,AI 透過 LLM 模型,知道你的意圖,在看你的電腦畫面,去決定要點選甚麼樣的位置,或是輸入甚麼樣的資訊,原來可以這麼簡單就實現用嘴巴操作電腦
準備 API Key
請先到這邊,https://www.anthropic.com/api ,取得 API Key,等等 docker 建立的時候會用到
Docker 安裝 Ahthropic computer use
Linux / Mac
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
Windows
export ANTHROPIC_API_KEY=%your_api_key%
docker run `
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY `
-v $HOME/.anthropic:/home/computeruse/.anthropic `
-p 5900:5900 `
-p 8501:8501 `
-p 6080:6080 `
-p 8080:8080 `
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
by Rain Chu | 10 月 30, 2024 | AI , 圖型處理 , 繪圖
在數位創作領域,最近正在火 FLUX 1,但 AI 生成圖片新創不斷推成出新,而 Ideogram 則是近期受到矚目的服務之一。這項服務讓使用者可以通過簡單的文字輸入來生成高質量的圖片,並且在效果和功能上都有其獨特的優勢。
Ideogram 的五大特色
優秀的效果媲美 FLUX Ideogram 的圖片生成效果可說與 FLUX.1 不相上下,能夠呈現高水準的圖像品質和細膩的細節,無論是自然場景還是具象物件,細節的處理都相當到位。
每日免費點數讓創作無限 Ideogram 每日提供使用者免費點數,大約可以生成五組圖片,這讓初次嘗試的使用者可以免費體驗其服務,且不必擔心每次生成都需要付費。這樣的彈性也吸引了許多創作者持續回訪。
比 FLUX 更寫實的圖片品質 與目前其他 AI 圖像生成服務(如 FLUX)相比,Ideogram 能夠生成更加寫實的圖片。這點對於需要精緻細節的設計師或品牌來說尤其重要,能夠符合更多商業與創作需求。
精準的文字輸出能力 一大特色是 Ideogram 能夠正確地在圖片中嵌入文字。這對於需要文字設計或標語的創作尤其實用。過往許多 AI 圖像生成工具常常會錯誤呈現文字,但 Ideogram 則解決了這個困擾,讓使用者能更精確地輸出文字圖像。
自訂色調控制 Ideogram 提供色盤工具,允許使用者控制生成圖片的色調,使整體風格更具一致性。無論是偏愛溫暖、冷色或復古的色彩效果,都能輕鬆調整,這在多數 AI 圖像生成平台中是少見的功能,尤其適合想要精確調色的設計需求。
極真實的圖片生成
可以看到下圖,現在生成的人物,可以說是完全無法辨識是否為真人還是AI,這邊的模型也沒限制你明星是不能當作提示詞,所以你可以盡情想像和發揮,但有肖像權的問題時還是不建議商用
價目表
這個費用比起主流的服務也相對的有誠意,如果用起來滿意,是真的可以考慮買一下的
咒語示範
A photo of a 20-year-old Chinese model with brown hair. She is smiling and wearing a navy blue fitted t-shirt. She is standing at a convention center, surrounded by a crowd of people. The background contains a large stage with a banner that reads “Welcome to the International Fashion Convention”.
如有興趣,可直接訪問他們的官方網站了解更多:Ideogram 官方網站
參考資料
by Rain Chu | 10 月 20, 2024 | AI , Chat , 語音合成
by Rain Chu | 10 月 20, 2024 | AI , 簡報製作 , 繪圖
Napkin AI ,直到今天都還不知道怎麼跟你收費的AI,可以幫你完成簡報的最後一哩路,把文字和項目給他,可以產生流程圖、比較圖、各式各樣的LOGO、圖示等,大幅度的美化你的簡報
Napkin 特色
1.多達40多種不同的模板
2.AI一鍵從文字生成圖表
3.漂亮且實用的手繪圖表
補充資料
by rainchu | 10 月 7, 2024 | AI , MIS , Tool
看到完全免費的軟體就覺得很佛心,但沒想到還支援AI重點摘要,還有個平台都可以使用,功能還比一堆付費軟體還強大,就真的一定要大力的推廣這麼優秀的軟體
免費的PDF編輯軟體PDFgear
特色功能介紹
內建AI摘要:快速幫忙重點整理
文檔編輯:可以編輯文字,也可以加入圖片
合併PDF:常用來加入 EXCEL 做出來的圖表
拆分PDF:可以設定如何拆分PDF,再重新合併一份文件
多平台支援:支援 windows, mac, ios, android
PDFgear核心功能
官網下載
https://www.pdfgear.com
相關資訊
by rainchu | 9 月 23, 2024 | AI , Chat
公開如何使用 OpenAI 配合 LiveKit 來實現會多國語言的小姐姐,可以即時回答您的問題,這個跟 Twilio 一樣的簡單和易用
取得 LiveKit key
利用 google 帳號登入 LiveKit Login 命名一個 project
並且到專案中的 settings -> KEYS ,取得 API KEY
程式碼
首先安裝相關依賴
pip install livekit-agents livekit-plugins-openai livekit-plugins-silero python-dotenv
設定環境變數
LIVEKIT_URL=""
LIVEKIT_API_KEY=""
LIVEKIT_API_SECRET=""
OPENAI_API_KEY=""
主要程式碼
import asyncio
from dotenv import load_dotenv
from livekit.agents import AutoSubscribe, JobContext,WorkerOptions, cli, llm
from livekit.agents.voice_assistant import VoiceAssistant
from livekit.plugins import openai, silero
load_dotenv()
async def entry(ctx: JobContext):
chat_ctx = llm.ChatContext().append(
role="system",
text=("你是專業的助理,回答時候用專業的語氣回應。")
)
await ctx.connect(auto_subscribe=AutoSubscribe.AUDIO_ONLY)
asssitant = VoiceAssistant(
vad=silero.VAD.load(),
stt=openai.STT(),
tts=openai.TTS(voice="nova"),
llm=openai.LLM(model="gpt-4o-mini"),
chat_ctx=chat_ctx
)
asssitant.start(ctx.room)
await asyncio.sleep(1)
await asssitant.say("你好,第一次見面,很高興認識你",allow_interruptions=True)
if __name__ == "__main__":
cli.run_app(WorkerOptions(entrypoint_fnc=entry))
測試與驗證
道專案中,可以看到 Get started 中有支援各種的平台的程式碼以及 server 可以使用
價格說明
https://livekit.io/pricing
參考資料
https://livekit.io
https://github.com/livekit/agents
demo code
近期留言