QWEN3.7-MAX: ALIBABA RA MẮT AI AGENT TỰ VẬN HÀNH 35 GIỜ, ĐÁNH BẠI CLAUDE VÀ DEEPSEEK

Cuộc đua AI agent vừa có một cột mốc mới. Alibaba thông qua đội ngũ Qwen Team đã chính thức ra mắt Qwen3.7-Max — model AI agent có khả năng tự vận hành liên tục trong 35 giờ mà không cần sự can thiệp của con người. Đây là bước nhảy vọt so với các model trước đây vốn chỉ hoạt động hiệu quả trong vài phút đến vài giờ trước khi bắt đầu mắc lỗi.

Điều đặc biệt: Qwen3.7-Max không chỉ mạnh về benchmark. Trong một bài kiểm tra thực tế, model được giao nhiệm vụ tối ưu kernel trên một con chip T-Head ZW-M890 PPU — phần cứng mà nó chưa từng gặp trong quá trình huấn luyện. Kết quả: 1.158 lần gọi công cụ, 432 lần đánh giá kernel, và đạt mức tăng tốc gấp 10 lần so với code gốc.

![](https://cdnr2.jaybranding.com/2026/05/qwen37_benchmark.jpg)Bảng so sánh benchmark Qwen3.7-Max với Claude Opus-4.6 Max và DeepSeek V4-Pro Max. Nguồn: Alibaba Qwen

35 GIỜ TỰ ĐỘNG — KỶ LỤC MỚI CỦA AI AGENT

Khác với các chatbot thông thường chỉ trả lời từng câu hỏi đơn lẻ, Qwen3.7-Max được thiết kế như một "agent foundation" đa năng — có thể lập kế hoạch, thực thi, tự sửa lỗi và điều chỉnh hướng đi trong suốt nhiều giờ. Alibaba gọi khả năng này là "long-horizon reasoning" — suy luận trong khoảng thời gian dài.

Để đạt được điều này, Qwen3.7-Max được huấn luyện qua kỹ thuật "environment scaling": model được tiếp xúc với hàng loạt môi trường agent đa dạng trong quá trình training, giúp nó không bị "mắc kẹt" khi gặp tình huống mới. Nhờ đó, model có thể duy trì một chuỗi suy luận xuyên suốt hàng ngàn lượt hội thoại mà không bị quên chỉ dẫn hay ảo giác biến số.

Trên benchmark YC-Bench — mô phỏng vòng đời một startup trong 1 năm với hàng trăm quyết định về nhân sự và hợp đồng — Qwen3.7-Max tạo ra $2.08 triệu doanh thu ảo, gần gấp đôi thế hệ trước Qwen3.6-Plus. Model cũng có cơ chế tự phát hiện "reward hacking" và tự thêm quy tắc heuristic để sửa hành vi — một bước tiến quan trọng về độ tin cậy của AI agent.

ĐÁNH BẠI CLAUDE OPUS VÀ DEEPSEEK TRÊN LOẠT BENCHMARK

Về mặt điểm số, Qwen3.7-Max thể hiện sức mạnh vượt trội. Trên bài kiểm tra Apex Math Reasoning, model đạt 44.5 điểm — cao hơn đáng kể so với Claude Opus-4.6 Max (34.5) và DeepSeek V4-Pro Max (38.3). Trên Humanity's Last Exam — bài kiểm tra được thiết kế để đo lường khả năng suy luận ở cấp độ chuyên gia — Qwen3.7-Max đạt 41.4 điểm.

Trên benchmark MCP-Atlas dành riêng cho coding agent, model đạt 76.4 điểm. Model cũng sở hữu cửa sổ ngữ cảnh 1 triệu token và khả năng output lên đến 64K token — đủ sức xử lý toàn bộ codebase của một dự án phần mềm lớn trong một lần chạy.

HỖ TRỢ GIAO THỨC ANTHROPIC API — TƯƠNG THÍCH CLAUDE CODE

Một điểm đáng chú ý khác: Qwen3.7-Max được thiết kế với khả năng "cross-harness generalization" — tương thích với nhiều framework agent khác nhau. Model hỗ trợ giao thức Anthropic API, cho phép developer "cắm" trực tiếp vào các công cụ như Claude Code hay OpenClaw mà không cần viết lại code.

Điều này đồng nghĩa: nếu doanh nghiệp đã đầu tư xây dựng workflow quanh Claude Code, họ có thể chuyển sang dùng Qwen3.7-Max như một "bộ não" thay thế, tận dụng sức mạnh tự động hóa dài hạn của model Trung Quốc mà không phải thay đổi hạ tầng.

PROPRIETARY THAY VÌ OPEN SOURCE — BƯỚC NGOẶT CỦA QWEN

Với Qwen3.7-Max, Alibaba lần đầu tiên đóng mã nguồn một model trong dòng Qwen — khác với các phiên bản trước đây vốn được phát hành open source. Đây là động thái gây tranh cãi nhưng hợp lý về mặt kinh doanh: các model AI mạnh nhất đòi hỏi chi phí huấn luyện khổng lồ, và việc phát hành miễn phí không giúp thu hồi vốn.

Alibaba hiện chỉ cung cấp Qwen3.7-Max qua API trả phí và các gói subscription — tương tự cách OpenAI và Google vận hành các model mạnh nhất của họ. Các model yếu hơn vẫn được phát hành open source. Tuy nhiên, việc API endpoint đặt tại Trung Quốc có thể là rào cản với các doanh nghiệp Mỹ và châu Âu quan tâm đến compliance và chủ quyền dữ liệu.

Dù vậy, với khả năng tự vận hành 35 giờ, điểm benchmark vượt trội và khả năng tương thích đa nền tảng, Qwen3.7-Max đánh dấu một cột mốc quan trọng: kỷ nguyên AI agent không còn là ý tưởng — nó đã bắt đầu vận hành thực tế.

Nguồn: VentureBeat — "Alibaba's proprietary Qwen3.7-Max can run for 35 hours autonomously"