在 GPT 當道的今天,似乎比較少看到有人討論 Computer Vision,近期剛好因為一些專案有機會接觸到這個服務,就順手留下一些紀錄囉。
Computer Vision 屬於 Azure AI Service 中的其中一項服務,雖然看起來只是其中一部分,不過其實包含了非常多種與電腦視覺有關的 AI 功能,而近期這類的 AI 服務都流行先給你一個簡單的 Demo 介面,讓你可以滑鼠簡單點一點就體驗到 AI 的強大之處,也確實展演效果十足,所以大部分在接觸一個新服務時都建議從 Studio 開始著手。
建立 Computer Vision
如前面所提,Computer Vision 是 Azure AI Service 中的一項服務,所以建立時可以先搜尋到 AI Service,左側就可以看到 Computer Vision,點擊上方建立。
建立 Computer Vision |
這類單純 API 的服務建立時都不會有太複雜的設定,如果只是想要測試功能的朋友,建議地區都先選在美東,尤其是 AI 相關服務近期都更新的非常快,而美東都會是首批開放的地區。
再者是 Azure AI Service 都會有免費試用額度,其實最建議是都先建在 F0 免費層,不過後續文章還會使用到其他進階功能,如果想照著文章走也可以直接建立 S1 層,畢竟這種 API 服務只是測試的話,幾乎不用幾塊錢的。
地區建議選美東 |
建立完成就會看到 Vision Studio 的入口了。
前往Vision Studio |
影像標題
可以先從簡單的功能開始,影像標題可以輸入一張圖片後,輸出一句符合圖片的標題。
影像標題 |
在 Vision Studio 中測試功能時,記得都需要在上方 Try it out 的方框中打勾,才能開始使用功能。
另外 Vision Studio 這邊的 UI 設計都大同小異,基本上左半部分可以讓你上傳本地端的圖片,上方也會提供一些範例圖片,讓你直接點擊使用,而右邊就會顯示模型 Inference 後的結果,這個結果可以改由 JSON 呈現,方便後續開發時可以直接知道 API 的規格,算是簡單明瞭。
這邊可以很清楚的看到 "text": "a group of cows grazing in a field" 就是生成出的結果,另外也有提供 "confidence": 0.8611457943916321 做為參考依據。
OCR
再來可以看看 OCR 這個功能,也是一個簡單強大的功能。
OCR |
這邊 Studio 感覺還存在一些 Bug,如果建立的是 Computer Vision 的資源,它會不讓你在 UI 上做測試,所以下圖是我另外建立 Multi-Service Account 後才得到的結果,不過使用 SDK 或 API 呼叫的話就是正常的喔。
OCR 輸出結果 |
結論
其他還有蠻多功能都可以直接在 Vision Studio 上,透過滑鼠簡單點一點就能使用的,建議大家都可以建一個免費資源去玩玩看。Computer Vision 還有另一個比較重要的功能:Custom Model,可以讓你使用自己的圖像來訓練「影像分類」或「物件辨識」任務的客製化模型,這個功能使用上會比較複雜,在 Vision Studio 上的操作也是步驟比較多,在下一篇中會著重介紹該如何使用 Computer Vision 中的 Custom model,請繼續觀看!
留言
張貼留言