by Rain Chu | 11 月 6, 2024 | Agent , AI
Views: 208
繼之前提到的 Ahthropic Computer Use ,那時候超級驚豔的,馬上就看到MS也有推出自己的版本,雖然沒有自動執行功能,但可以配合 pyautogui 達成,雖然不支援中文,但可以透過中文OCR 或是 tesseract 處理
安裝到本地端
先建立一個虛擬環境起來
conda create -n omni python=3.12 -y
conda activate omni
選項:有GPU的,先把CUDA安裝起來
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
整個安裝也很簡單,就五個步驟
git clone https://github.com/microsoft/OmniParser.git && cd OmniParser
pip install -r requirements.txt
huggingface-cli download --repo-type model microsoft/OmniParser --local-dir weights --include "icon_detect/*" "icon_caption_blip2/*" "icon_caption_florence/*"
python /home/Ubuntu/OmniParser/weights/convert_safetensor_to_pt.py
python gradio_demo.py
OmniParser 1.5 更新
先下載模型
python weights/convert_safetensor_to_pt.py
For v1.5:
download 'model_v1_5.pt' from https://huggingface.co/microsoft/OmniParser/tree/main/icon_detect_v1_5, make a new dir: weights/icon_detect_v1_5, and put it inside the folder. No weight conversion is needed.
執行指令要改成 1.5 版本
python gradio_demo.py --icon_detect_model weights/icon_detect_v1_5/model_v1_5.pt --icon_caption_model florence2
支援其他的語言
舉例來說,要改成中文,請找到專案下的 utils.py ,將 en 改成 ch
reader = easyocr.Reader(['en'])
paddle_ocr = PaddleOCR(
# lang='en', # other lang also available
lang='ch', # other lang also available
use_angle_cls=False,
use_gpu=False, # using cuda will conflict with pytorch in the same process
show_log=False,
max_batch_size=1024,
use_dilation=True, # improves accuracy
det_db_score_mode='slow', # improves accuracy
rec_batch_num=1024)
在介面中選取使用 PaddleOCR
相關資源
OmniParser 原始碼
OmniParser 官網
OmniParser 模型
https://blog.stoeng.site/20241030.html
by Rain Chu | 11 月 6, 2024 | Agent , AI , Chat
Views: 33
最近 OpenAI 推出了 Canvas ,開始流行在 ChatGPT 上頭寫程式、寫郵件等等,馬上就有人推出本地端一樣的服務 Open Canvas ,解放了你只能在 OpenAI 上使用的困境,除了 Git 以外,也馬上有了 docker 版本,可以快速體驗
Open Canvas 架構圖
Open Canvas Workflow
相關資源
Open Canvas 原始檔
Open Canvas Docker
LangGraph Studio
LangSmith
VIDEO
by Rain Chu | 11 月 5, 2024 | AI
Views: 37
終於來到電影中的AI操作電腦的情節了,動動嘴巴就可以控制電腦,AI 透過 LLM 模型,知道你的意圖,在看你的電腦畫面,去決定要點選甚麼樣的位置,或是輸入甚麼樣的資訊,原來可以這麼簡單就實現用嘴巴操作電腦
準備 API Key
請先到這邊,https://www.anthropic.com/api ,取得 API Key,等等 docker 建立的時候會用到
Docker 安裝 Ahthropic computer use
Linux / Mac
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
Windows
export ANTHROPIC_API_KEY=%your_api_key%
docker run `
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY `
-v $HOME/.anthropic:/home/computeruse/.anthropic `
-p 5900:5900 `
-p 8501:8501 `
-p 6080:6080 `
-p 8080:8080 `
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
by Rain Chu | 10 月 30, 2024 | AI , 圖型處理 , 繪圖
Views: 15
在數位創作領域,最近正在火 FLUX 1,但 AI 生成圖片新創不斷推成出新,而 Ideogram 則是近期受到矚目的服務之一。這項服務讓使用者可以通過簡單的文字輸入來生成高質量的圖片,並且在效果和功能上都有其獨特的優勢。
Ideogram 的五大特色
優秀的效果媲美 FLUX Ideogram 的圖片生成效果可說與 FLUX.1 不相上下,能夠呈現高水準的圖像品質和細膩的細節,無論是自然場景還是具象物件,細節的處理都相當到位。
每日免費點數讓創作無限 Ideogram 每日提供使用者免費點數,大約可以生成五組圖片,這讓初次嘗試的使用者可以免費體驗其服務,且不必擔心每次生成都需要付費。這樣的彈性也吸引了許多創作者持續回訪。
比 FLUX 更寫實的圖片品質 與目前其他 AI 圖像生成服務(如 FLUX)相比,Ideogram 能夠生成更加寫實的圖片。這點對於需要精緻細節的設計師或品牌來說尤其重要,能夠符合更多商業與創作需求。
精準的文字輸出能力 一大特色是 Ideogram 能夠正確地在圖片中嵌入文字。這對於需要文字設計或標語的創作尤其實用。過往許多 AI 圖像生成工具常常會錯誤呈現文字,但 Ideogram 則解決了這個困擾,讓使用者能更精確地輸出文字圖像。
自訂色調控制 Ideogram 提供色盤工具,允許使用者控制生成圖片的色調,使整體風格更具一致性。無論是偏愛溫暖、冷色或復古的色彩效果,都能輕鬆調整,這在多數 AI 圖像生成平台中是少見的功能,尤其適合想要精確調色的設計需求。
極真實的圖片生成
可以看到下圖,現在生成的人物,可以說是完全無法辨識是否為真人還是AI,這邊的模型也沒限制你明星是不能當作提示詞,所以你可以盡情想像和發揮,但有肖像權的問題時還是不建議商用
價目表
這個費用比起主流的服務也相對的有誠意,如果用起來滿意,是真的可以考慮買一下的
咒語示範
A photo of a 20-year-old Chinese model with brown hair. She is smiling and wearing a navy blue fitted t-shirt. She is standing at a convention center, surrounded by a crowd of people. The background contains a large stage with a banner that reads “Welcome to the International Fashion Convention”.
如有興趣,可直接訪問他們的官方網站了解更多:Ideogram 官方網站
參考資料
by Rain Chu | 10 月 20, 2024 | AI , Chat , 語音合成
Views: 139
by Rain Chu | 10 月 20, 2024 | AI , 簡報製作 , 繪圖
Views: 65
Napkin AI ,直到今天都還不知道怎麼跟你收費的AI,可以幫你完成簡報的最後一哩路,把文字和項目給他,可以產生流程圖、比較圖、各式各樣的LOGO、圖示等,大幅度的美化你的簡報
Napkin 特色
1.多達40多種不同的模板
2.AI一鍵從文字生成圖表
3.漂亮且實用的手繪圖表
補充資料
近期留言