今天,Anthropic最新推出的Claude 3.5 Sonnet模型在Amazon Bedrock正式上線。升級版Claude 3.5 Sonnet獲得了一項革命性的新技能:能夠像人類一樣操作電腦。根據(jù)Anthropic介紹,該模型各項能力均超越之前版本,實現(xiàn)了全面提升——尤其在代碼方面,進一步鞏固其行業(yè)領先地位。
Claude 3.5 Sonnet在業(yè)界基準測試中表現(xiàn)卓越,在SWE-bench Verified編碼測試的得分由33%躍升至49%,超越所有目前公開可用的模型。在TAU-bench(評估模型靈活運用工具和API綜合能力的基準測試)中,其零售領域得分從62.6%提高到69.2%,航空領域從36.0%提高到46.0%。性能全面提升的同時,Claude 3.5 Sonnet的成本與之前版本保持一致。
Claude 3.5 Sonnet新增的“計算機使用”功能現(xiàn)已在Amazon Bedrock上線公測版,賦予使用者引導模型模擬人類行為進行屏幕觀察、鼠標移動、點擊以及文本輸入等操作的能力。由于這項技術仍處于早期階段,建議用戶從嘗試低風險任務開始,逐步探索這項強大的新功能。
Claude 3.5 Sonnet現(xiàn)已在美國西部(俄勒岡州)地區(qū)的Amazon Bedrock中上線。