ByteDanceが公開したマルチモーダルGUIエージェントスタックであるUI-TARS-desktopは、自然言語による指示と画面のスクリーンショットをセルフホスティングした視覚言語モデル(VLM)に入力することによりローカルPCの操作を安全に自動 ...