Đầu tháng 6 vừa rồi, Schema.org cùng Google công bố một thứ mà giới làm web chờ đã lâu: một kho dữ liệu thống kê cho thấy structured data (dữ liệu có cấu trúc) đang được hàng triệu website dùng ra sao. Lần đầu tiên có một bức tranh ở quy mô hàng triệu tên miền về việc loại đánh dấu nào phổ biến, loại nào hiếm. Với người làm website, đây không chỉ là tin vui cho dân nghiên cứu — nó gợi ý khá rõ những gì một trang nên có.
Bài này tóm lại kho dữ liệu đó nói gì, giải thích structured data là gì cho ai chưa rành, và quan trọng nhất: rút ra việc thực tế cho một website ở Việt Nam. Mọi con số bên dưới đều dẫn từ thông báo chính thức, không phải ước đoán của chúng tôi.
Schema.org vừa mở một kho dữ liệu chưa từng có
Trước đây, không ai thật sự biết hàng triệu website ngoài kia dùng schema thế nào — chỉ có cảm nhận và vài khảo sát lẻ. Lần này, Schema.org và Google gộp dữ liệu thu thập được rồi công khai nó dưới dạng file tải về, cập nhật hàng tháng, ở cả định dạng CSV và JSON trên kho GitHub chính thức của Schema.org.
Mỗi dòng dữ liệu chỉ có ba thông tin: tên thuật ngữ (là một Type như Organization, Person, hay một Property như price, telephone), địa chỉ URI chính thức của nó, và khoảng số tên miền đang dùng nó. Để bảo vệ riêng tư, con số không hiện chính xác mà gom theo khoảng — ví dụ “10 nghìn đến 100 nghìn tên miền”, “100 nghìn đến 1 triệu”, và cao hơn nữa.
Theo đợt phát hành đầu tiên (dữ liệu tháng 5/2026), kho này bao gồm 958 loại (Types) và 4.587 thuộc tính (Properties), tổng cộng 5.545 mục. Bạn có thể đọc trực tiếp thông báo gốc của Schema.org và phần tài liệu cách dùng dữ liệu nếu muốn tải file về xem.
Structured data là gì và vì sao Google cần nó
Con người nhìn một trang sản phẩm là hiểu ngay đâu là tên, đâu là giá, đâu là đánh giá sao. Cỗ máy thì không — với nó, tất cả chỉ là một mớ chữ và thẻ HTML. Structured data là cách bạn dán nhãn ngầm cho từng phần nội dung theo một bộ từ vựng chung mà Schema.org đặt ra, để máy hiểu “đoạn này là giá, đoạn kia là tên doanh nghiệp, chỗ này là câu hỏi thường gặp“.
Khi Google hiểu được nội dung nhờ những nhãn đó, nó có thể hiển thị trang của bạn đẹp hơn trên kết quả tìm kiếm: ngôi sao đánh giá, giá tiền, ảnh, đường dẫn phân cấp, danh sách câu hỏi mở rộng — những thứ gọi chung là rich result (kết quả giàu thông tin). Một trong những dạng phổ biến nhất là đường dẫn phân cấp, mà chúng tôi đã nói kỹ trong bài breadcrumb là gì. Đây cũng là một mảng của technical SEO — phần kỹ thuật làm nền cho thứ hạng.
12 loại schema gần như website nào cũng chạm tới
Phần thú vị nhất của kho dữ liệu là nhóm trên cùng. Theo đợt công bố đầu, có 12 loại nằm trong khoảng phổ biến nhất — xuất hiện trên hơn 10 triệu tên miền. Đáng chú ý là chúng không phải thứ gì cao siêu, mà là những viên gạch nền của một website tử tế:
- Nhận diện trang và tổ chức:
WebSite,WebPage,Organization,Person,Thing— khai báo đây là website của ai, trang gì, đại diện cho tổ chức hay cá nhân nào. - Điều hướng và tìm kiếm:
BreadcrumbList,ListItem,SearchAction,EntryPoint,ReadAction— giúp máy hiểu cấu trúc đường dẫn và cách người ta tìm, đọc trong site. - Nội dung và kỹ thuật:
ImageObject(mô tả ảnh),PropertyValueSpecification(đặc tả cho ô tìm kiếm, biểu mẫu).
Phần lớn những loại này được các nền tảng và plugin SEO tự thêm vào khi bạn dựng site đúng cách — đó là lý do chúng phủ rộng đến vậy. Điều nó ngầm nói với bạn: nếu một website còn thiếu cả những nhãn nền tảng này, nó đang đứng sau mặt bằng chung của số đông.
Đọc kho dữ liệu này cho đúng, đừng đọc nhầm
Có một cái bẫy cần tránh. Kho dữ liệu cho biết bao nhiêu tên miền dùng một loại schema, chứ không nói loại đó giúp lên top hay không, cũng không cho con số “bao nhiêu phần trăm trang web có structured data”. Phổ biến không đồng nghĩa với hiệu quả, và hiếm không có nghĩa là vô dụng.
Cách dùng đúng là xem nó như một tấm bản đồ tham khảo: những loại nền tảng quá phổ biến thì gần như là điều kiện cần, nên có; còn các schema chuyên biệt theo ngành (sản phẩm, công thức nấu ăn, sự kiện, câu hỏi thường gặp) thì tùy loại trang mà thêm cho đúng. Tuyệt đối đừng vì thấy một loại lạ mà nhồi nó vào trang không liên quan — đánh dấu sai nội dung thực tế là cách nhanh để Google mất tin, thậm chí bỏ qua rich result của bạn.
Vì sao năm 2026 structured data càng đáng làm
Trước đây, lý do làm schema chủ yếu là để có rich result đẹp trên Google. Năm 2026 có thêm một lý do lớn hơn: các công cụ trả lời bằng AI. Phần tóm tắt do AI tạo ngay trên trang kết quả, và cả những trợ lý như ChatGPT hay Gemini, đều dựa nhiều vào nội dung được cấu trúc rõ ràng để hiểu và trích dẫn. Dữ liệu có cấu trúc giống như đưa cho cỗ máy một bản tóm tắt sạch sẽ thay vì bắt nó tự đoán.
Đây chính là điểm nối với xu hướng mà chúng tôi đã bàn trong bài SEO năm 2026 đã khác: làm nội dung rõ ràng, có cấu trúc, đáng tin thì vừa lên top Google vừa dễ được AI nhắc tới. Schema markup là một trong những cách cụ thể nhất để làm điều đó, vì nó nói thẳng cho máy biết nội dung của bạn là gì.
Người làm web Việt nên bắt đầu từ đâu
Không cần phủ hết 958 loại schema. Hãy làm chắc phần nền trước, rồi mới tới phần theo ngành:
- Nền tảng cho mọi site: khai báo
Organization(hoặcPersonnếu là trang cá nhân),WebSite, vàBreadcrumbListcho đường dẫn. Đây đúng là nhóm phổ biến nhất trong kho dữ liệu. - Theo loại trang: bài viết thêm
Article, sản phẩm thêmProductkèm giá và đánh giá, doanh nghiệp địa phương thêmLocalBusinessvới địa chỉ và giờ mở cửa. - Đừng làm tay nếu không cần: với WordPress, một plugin SEO như Rank Math đã tự sinh phần lớn schema nền tảng. Việc của bạn là khai báo đúng loại hình và điền đủ thông tin.
- Luôn kiểm tra lại: dán URL vào công cụ Rich Results Test của Google để xem trang có được nhận đúng schema và đủ điều kiện rich result chưa.
Một website chuẩn ngay từ khi dựng sẽ có sẵn lớp structured data này — đó là phần chúng tôi luôn làm khi thiết kế website chuẩn SEO, thay vì để khách tự chắp vá về sau. Nếu bạn chưa chắc web của mình đã có đủ schema nền tảng hay chưa, cứ nói với chúng tôi vài câu, chúng tôi xem giúp.
