Khi hai nhà thiết kế tranh luận nút đặt hàng nên màu coral hay xanh dương, ai cũng có lý lẽ riêng. A/B testing cắt ngang tranh cãi bằng một thứ không thể chối: số liệu từ chính người dùng thật. Thay vì đoán, bạn cho một nửa khách thấy bản A, nửa kia thấy bản B, rồi để dữ liệu phân xử.

A/B testing đo cái gì

Phương pháp này luôn gắn với một metric (chỉ số đo lường — con số phản ánh hành vi bạn muốn cải thiện) được chốt trước. Theo Nielsen Norman Group, các chỉ số thường gặp là tỉ lệ chuyển đổi (conversion rate), tỉ lệ nhấp (click-through rate), tỉ lệ thoát (bounce rate) và doanh thu trên mỗi người dùng.

Một nguyên tắc quan trọng: bên cạnh chỉ số chính (cái bạn kỳ vọng tăng), nên theo dõi thêm guardrail metric (chỉ số bảo vệ — số dùng để chắc chắn thay đổi không gây hại chỗ khác). Ví dụ bạn đổi nút để tăng số lần bấm “thêm vào giỏ”, nhưng phải canh xem tỉ lệ hoàn tất đơn có tụt không. Nút bấm nhiều hơn mà đơn ít đi thì coi như thua.

Sơ đồ so sánh A/B testing và usability testing — Hai phương pháp trả lời hai câu hỏi khác nhau, dùng chung mới mạnh.

Khác gì usability testing

Đây là nhầm lẫn phổ biến nhất. Hai phương pháp trả lời hai câu hỏi khác hẳn nhau, không thay thế được cho nhau.

Tiêu chí	A/B testing	Usability testing
Bản chất dữ liệu	Định lượng (con số)	Định tính (quan sát, lý do)
Trả lời câu hỏi	Bản nào thắng?	Vì sao người dùng vấp?
Số người	Hàng nghìn (cần lưu lượng lớn)	Khoảng 5 người mỗi vòng
Người dùng có biết bị quan sát	Không (chạy ngầm khi họ dùng thật)	Có (ngồi làm tác vụ được giao)

A/B testing cho biết cái gì hiệu quả hơn nhưng không nói vì sao. Usability testing thì ngược lại: ngồi xem 5 người thật loay hoay với giao diện sẽ lộ ra điểm vấp, nhưng không chứng minh được bản này chuyển đổi cao hơn bản kia. Hai cái dùng chung mới mạnh: usability test để nghĩ ra giả thuyết, A/B test để xác nhận giả thuyết đó đúng trên quy mô lớn. Nếu cần đọc kỹ về quan sát định tính, xem bài kiểm thử khả năng dùng cơ bản.

Cũng đừng lẫn với bản đồ nhiệt (heatmap): heatmap cho thấy người ta nhìn và bấm ở đâu trên một trang, còn A/B testing so hai trang xem bản nào ra kết quả cao hơn.

Khi nào nên dùng A/B testing

NN/g chỉ rõ phương pháp này hợp với sản phẩm có lưu lượng cao: thương mại điện tử, SaaS, mạng xã hội, xuất bản, email marketing. Nó tỏa sáng khi bạn thử một yếu tố đơn lẻ và rõ ràng:

Tiêu đề (headline) hoặc câu chữ trên nút (microcopy)
Màu, kích thước, vị trí nút kêu gọi hành động
Bố cục trang thanh toán, biểu mẫu đăng ký
Ảnh bìa hay video giới thiệu trên trang đích

Ngược lại, nếu trang chỉ vài chục lượt xem mỗi tuần thì A/B testing là vô ích, không bao giờ gom đủ số liệu để kết luận đáng tin. Trang lưu lượng thấp nên dựa vào usability testing và phán đoán thiết kế tốt thay vì cố chạy A/B.

Cần bao nhiêu lưu lượng

Số người cần thiết phụ thuộc ba thứ: giá trị chỉ số nền (baseline — bạn đang chuyển đổi bao nhiêu phần trăm hiện tại), minimum detectable effect (mức cải thiện nhỏ nhất đáng phát hiện), và ngưỡng tin cậy. Tin cậy thông dụng là 95% (tức p = 0,05).

Một quy luật phũ phàng: cải thiện càng nhỏ thì càng cần nhiều người để phát hiện chắc chắn. Muốn bắt được mức tăng 1% chuyển đổi, bạn cần lưu lượng lớn gấp nhiều lần so với bắt mức tăng 10%. Dùng công cụ tính sample size trước khi chạy, đừng phỏng đoán.

NN/g khuyên chạy ít nhất 1–2 tuần dù lưu lượng đã đủ, để gói trọn dao động hành vi theo ngày trong tuần. Khách mua thứ Hai khác khách mua tối thứ Bảy.

Sơ đồ các bẫy thường gặp khi chạy A/B test và cách né — Những lỗi hay sập khi chạy A/B test và cách phòng tránh.

Những bẫy hay sập

Sai lầm nguy hiểm nhất là peeking (nhìn lén — liếc kết quả giữa chừng rồi dừng test ngay khi thấy đẹp). Ở giai đoạn đầu khi mẫu còn ít, tỉ lệ chuyển đổi nhiễu rất mạnh, lên xuống thất thường chỉ vì ngẫu nhiên ai ghé trang hôm đó. Nếu cứ ngó mỗi ngày và dừng ngay lúc thấy “có ý nghĩa thống kê”, khả năng cao bạn chộp đúng một cú nhiễu chứ không phải kết quả đã ổn định.

Hậu quả có thật: mỗi lần liếc rồi dừng là một lần so sánh thống kê thêm, đẩy tỉ lệ dương tính giả (false positive) thực tế lên 20–30% hoặc hơn, dù bạn tưởng mình đang ở mức 5%. Cách chữa: chốt sample size trước khi bật test, rồi không xem cho tới khi đạt con số đó. Để công cụ tự dừng đúng ngưỡng.

Vài bẫy khác cần né:

Test không có giả thuyết: đổi đại rồi chờ may. Mỗi test nên xuất phát từ một giả thuyết có cơ sở (từ usability test, heatmap, hay nguyên tắc thiết kế giao diện).
Chỉ nhìn một chỉ số: bỏ guardrail metric thì dễ thắng phần ngọn mà thua phần gốc.
Hiệu ứng mới lạ (novelty effect): bản mới được bấm nhiều chỉ vì lạ mắt, vài tuần sau hết hiệu lực. Chạy đủ dài mới lộ.
Thắng nhưng không hiểu vì sao: A/B testing không lý giải. Muốn biết lý do, quay lại quan sát định tính.

Giới hạn trung thực của phương pháp

A/B testing rất mạnh nhưng không phải thuốc tiên. Nó tối ưu tốt trong khung sẵn có (nút này hay nút kia) nhưng không nghĩ ra ý tưởng đột phá hộ bạn. Một chuỗi A/B test có thể đẩy bạn tới cực đại cục bộ (local maximum — đỉnh nhỏ trong vùng quanh quẩn) mà bỏ lỡ thiết kế tốt hơn hẳn ở hướng khác. Và như NN/g nhắc, kết quả vẫn có thể là dương tính giả hay âm tính giả dù đã đủ chuẩn. Số liệu là cố vấn sắc bén, không phải lời sấm.

Câu hỏi thường gặp

Web ít khách có A/B test được không? Thực tế là không nên. Thiếu lưu lượng thì không bao giờ đạt ý nghĩa thống kê, kết luận sẽ sai. Hãy dùng usability testing với 5 người và phán đoán thiết kế.

Chạy bao lâu là đủ? Tối thiểu 1–2 tuần và phải đạt sample size đã tính trước, lấy cái nào tới sau. Tuyệt đối không dừng sớm vì thấy số đẹp.

A/B test có thay được usability test không? Không. Một cái nói bản nào thắng, một cái nói vì sao. Web22 thường dựng giao diện thật từ usability test trước, rồi A/B test để xác nhận; ai muốn giao việc này có thể xem dịch vụ thiết kế trải nghiệm người dùng của Web22.

A/B testing trong thiết kế (so hai phiên bản bằng dữ liệu thật)

A/B testing đo cái gì

Khác gì usability testing

Khi nào nên dùng A/B testing

Cần bao nhiêu lưu lượng

Những bẫy hay sập

Giới hạn trung thực của phương pháp

Câu hỏi thường gặp

Bài viết
cùng chủ đề.

A/B testing đo cái gì

Khác gì usability testing

Khi nào nên dùng A/B testing

Cần bao nhiêu lưu lượng

Những bẫy hay sập

Giới hạn trung thực của phương pháp

Câu hỏi thường gặp

Bài viếtcùng chủ đề.

Bài viết
cùng chủ đề.