Pages

2012/05/10

Phần 2: Độ chính xác của công cụ phân tích website

Độ chính xác của công cụ phân tích website

Có 2 kỹ thuật phân tích website: pagetag và server logfile. Google Analytics sử dụng pagetag.

Pagetag và logfile là gì?

Pagetag thu thập thông tin thông qua trình duyệt của visitor và gửi thông tin đến remote server thu thập. Chúng ta sẽ xem report từ remote server. Thông tin này được thu thập bởi các đoạn mã javascript (nằm trong tag) được đặt ở từng trang của website. Kỹ thuật này thu thập dữ liệu phía client.
pagetag
Kỹ thuật pagetag
Logfile chứa dữ liệu thu thập bởi web server, độc lập với trình duyệt của visitor. Web server log lại các hoạt động vào 1 file text nằm ở local. Người phân tích sẽ xem report tại server local. Kỹ thuật này thu thập dữ liệu phía server, ghi lại toàn bộ request đến web server của ta, bao gồm trang, hình ảnh, pdf...
logfile
Kỹ thuật logfile
Trước đây, đa số các nhà cung cấp dịch vụ internet (ISPs) cung cấp phần mềm log free, đi kèm với tài khoản web hosting (Analog, Webalizer, AWStats...), tuy nhiên, những phần mềm này quá đơn giản, không đáp ứng đủ các yêu cầu.
Những năm sau đó, pagetag dần trở nên phổ biến và hiện nay đã trở thành phương thức chuẩn cho việc thu thập và xử lý bởi server ngoài (nhà cung cấp sản phẩm), giúp cho chủ website tiết kiệm kinh phí duy trì phần mềm dùng để thu thập, lưu trữ thông tin.

Cookies trong phân tích website:

Pagetag track visitor bằng cookies. Cookies là những file text có kích thước nhỏ mà web server truyền cho trình duyệt web để track hoạt động của visitor tại 1 trang web xác định. Trình duyệt của visitor lưu thông tin cookies tại máy tính của visitor. Persitent cookies là những cookies vẫn tồn tại khi trình duyệt bị đóng và mở lại sau đó. Session cookies chỉ tồn tại trong suốt phiên làm việc của visitor tại website của chúng ta.
Đối với phân tích website, mục đích chính của cookies là để nhận dạng visitor. Cookies có thể dùng để xác định bao nhiêu visitor cũ, mới; trong 1 khoảng thời gian nào đó thì visitor quay trở lại bao nhiêu lần, khoảng cách giữa 2 lần truy cập là bao lâu...
1 số đặc điểm của cookies:
  • Cookies có kích thước nhỏ (< 4KB), được lưu trữ cục bộ
  • Thông tin cookies có thể được xem bởi những người dùng chung máy tính, thông qua cài đặt của bản thân trình duyệt hoặc 1 text editor nào đó
  • Có 2 loại cookies: first party và third party
Đối với first party cookies, chỉ có miền website thiết lập cookies mới có thể lấy dữ liệu. Đây là tính năng bảo mật trong tất cả trình duyệt web.
Đối với third party cookies, miền website thiết lập cookies có thể list các domain khác được phép xem thông tin cookies đó. Người dùng thậm chí không nhận thức được điều này khi nó xảy ra.
Cookies thực chất không độc hại và không thể gây tổn hại cho máy tính của chúng ta. Ngoài ra, nó có thể bị xóa bởi người dùng bất cứ lúc nào.
Đối với phiên bản mới nhất của Internet Explorer và Firefox, số lượng cookies tối đa cho phép với 1 miền website là 50. Các trình duyệt khác: Opera 10: 30, Safari và Google Chrome: không giới hạn. 

Độ chính xác dữ liệu của phân tích website:

Những vấn đề ảnh hưởng đến độ chính xác dữ liệu visitor đối với logfile:

  • IP động: 1 cách tổng quát, logfile track phiên làm việc của visitor bằng IP. Vấn đề xảy ra khi ISPs cấp phát 1 địa chỉ khác tại phiên làm việc đó. Một nghiên cứu của ComScore tại Mỹ cho thấy 1 máy tính gia đình trong vòng 1 tháng có số lượng IP khác nhau trung bình là 10.5. Những lần truy cập đó sẽ được tính là 10 unique visitor bởi logfile.
  • Những trang được cache ở client: cache ở phía client có nghĩa là trang đã được visit trước đó được lưu trữ tại máy tính của visitor. Trong trường hợp này, visit lại trang đó lần nữa sẽ không được ghi lại tại web server.
  • Robot: được sử dụng bởi các bộ máy tìm kiếm để index website, 1 số robot dùng để kiểm tra hiệu suất server: uptime, tốc độ download... Chúng sẽ ảnh hưởng đến việc phân tích web bởi vì logfile sẽ ghi nhận dữ liệu về hoạt động của robot trên web, mặc dù chúng không phải là các visitor thật sự.

Những vấn đề ảnh hưởng đến độ chính xác dữ liệu visitor đối với pagetag:

  •  Lỗi trong quá trình thiết lập: theo số liệu từ MAXAMINE, 1 website dùng pagetag thường có 20% trang thiếu pagetag, thiếu pagetag đồng nghĩa với việc không có dữ liệu thu thập từ các trang đó.
  • Lỗi Javascript: 1 số lượng nhỏ người dùng internet disable javascript trên trình duyệt web của họ. Ngoài ra, bất cứ lỗi javascript nào trước đó trên trang cũng sẽ làm đoạn mã ngưng ngay tại lúc đó, dẫn đến không thực thi được lệnh javascript của pagetag.
Phần trăm người dùng internet disable javascript
Nguồn: Yahoo, 2010
  • Firewall: firewall có thể ngăn chặn pagetag gửi dữ liệu đến server, ngoài ra firewall còn có thể cài đặt từ chối hoặc xóa cookies một cách tự động.
  • Mobile visitor: theo nghiên cứu của ComScore vào tháng 01/2007 cho thấy tại Mỹ có 30 triệu (19%) người dùng internet truy cập từ mobile. Vào thời điểm đó đa phần mobile không hề có khái niệm về javascript hay cookies, do đó chỉ có logfile mới có khả năng tracking visitor truy cập trang web từ mobile. 12/2010, con số này tăng lên 109 triệu, nhờ vào sự thành công của các smart phone, đặc biệt là iPhone. Smart phone có trình duyệt hoạt động tương tự như trên PC và laptop, hỗ trợ javascript và cookies. Nhờ vậy, visitor của trang web sử dụng smart phone có thể được track bằng page tag như các visitor khác.
  • Visitor xóa hay không chấp nhận cookies: nghiên cứu của ComScore từ 2010 - 2011, số lượng người dùng internet xóa first party cookies là 28 - 33%.
  • 1 người dùng nhiều máy tính, và ngược lại 1 máy tính có nhiều người dùng.
  • Thời gian visitor chuyển thành customer có ảnh hưởng đáng kể đến độ chính xác của dữ liệu. Vd: đa phần các sản phẩm có giá trị thấp thường được mua ngay lập tức hoặc trong vòng 1 tuần kể từ lần truy cập đầu tiên. Với khoảng thời gian ngắn như vậy, pagetag có thể thu thập toàn bộ pageview, hành động của visitor và kết quả báo cáo cũng chính xác hơn. Những sản phẩm có giá trị cao thường cần 1 khoảng thời gian dài để từ đó visitor trở thành customer. Vd: trong lĩnh vực du lịch và tài chính, khoảng thời gian trên có thể kéo dài 90 ngày. Trong suốt thời gian đó, rất nhiều khả năng visitor sẽ xóa cookies, cài đặt lại trình duyệt, nâng cấp hệ điều hành, mua máy tính mới... Kết quả là visitor sẽ được xem là new visitor khi họ quyết định mua hàng.

Vị trí đặt pagetag:

Javascript được tải lần lượt với các nội dung khác của trang như văn bản, css, hình ảnh... Vì vậy, các nhà cung cấp khuyến cáo pagetag nên được đặt phía dưới thẻ </body> (cuối trang) để chắc chắn rằng nội dung trực quan của trang web sẽ được tải trước. Điều này có nghĩa là bất cứ sự cố nào từ server nhà cung cấp pagetag sẽ không ảnh hưởng đến quá trình tải trang của ta. Vấn đề là những visitor quen thuộc của website có thể nhanh chóng click sang trang khác trước khi pagetag kịp thu thập dữ liệu. Nội dung trên trang của ta càng nhiều, trang càng tải chậm và visitor sẽ dễ click sang trang khác trước khi tracking code được thực thi.
Đối với trường hợp đặt pagetag tại đầu trang, vấn đề nằm ở server của nhà cung cấp pagetag, có thể làm trang web của ta tải lâu hơn, hoặc thậm chí ngừng tải. Cả 2 trường hợp đều không lý tưởng, nhưng nếu xét kỹ thì làm chậm dữ liệu đến người dùng là điều không nên. Vì vậy, đặt ở cuối trang đã trở thành tiêu chuẩn được các nhà cung cấp khuyến cáo.
Năm 2009, TagMan.com đã tiến hành 1 cuộc nghiên cứu về vấn đề này. Kết quả cho thấy 10% traffic trong báo cáo sẽ bị mất ứng với mỗi giây cần thêm để tải trang. Chuyển pagetag lên đầu trang có thể tăng traffic report lên 20%.

Nâng cao mức độ chính xác của dữ liệu phân tích web:

Rõ ràng là công cụ phân tích web không thể nào chính xác được 100%. Tuy nhiên, chúng ta có thể tập trung vào đo lường khuynh hướng thay vì những con số chính xác. Vd, công cụ phân tích web có thể giúp chúng ta trả lời những câu hỏi sau:
  • Số lượng visitor đang tăng lên?
  • Tăng/giảm bao nhiêu %?
  • Conversion rate có tăng sau khi áp dụng quảng cáo PPC?
  • ...
Nếu như khuynh hướng cho tỉ lệ thay đổi lớn hơn 10% thì đó là những thay đổi chúng ta cần phải quan tâm, cho dù dùng công cụ phân tích nào.
Google đã có những cải tiến đáng kể độ chính xác của kỹ thuật thu thập dữ liệu bằng pagetag trong những năm gần đây. Kể từ 2010, Google Analytics pagetag thực thi theo hướng bất đồng bộ (asynchronous). Đây là cách tải javascript (JS) song song với tải trang, trái ngược lại với việc tải tuần tự truyền thống.
Khi mà những khả năng ảnh hưởng đến độ chính xác của công cụ phân tích website đã được xem xét, rõ ràng là sẽ không có hiệu quả nếu ta tập trung vào những giá trị chính xác hoặc kết hợp với số liệu từ nguồn khác.
Kết quả sẽ chính xác hơn nếu ta sử dụng cùng công cụ đo lường trong việc so sánh dữ liệu. Đây chính là "chân lý" của phân tích website.

1 số lời khuyên để nâng cao độ chính xác của phân tích web:

  • Sử dụng công cụ dùng pagetag và first party cookies để thu thập dữ liệu. Google Analytics (GA) là công cụ pagetag sử dụng first party cookies.
  • Đừng xáo trộn việc định danh người dùng. Vd: nếu first party cookies bị xóa, đừng chuyển sang dùng thông tin IP. Tốt hơn nên bỏ qua trường hợp đó.
  • Xóa hoặc tách hoạt động của các robot khỏi báo cáo dữ liệu. GA lờ đi các robot không thực thi JS.
  • Track tất cả, đừng giới hạn landing page, hoặc chỉ là các page. Track toàn bộ hoạt động của website, bao gồm file download, search nội bộ, transaction, funnel, các nút như Facebook like, Twitter follow..., error page, liên kết ngoài.
  • Kiểm tra đều đặn pagetag (ít nhất 1 tháng 1 lần đối với các site lớn).
  • Hiển thị chính sách bảo mật người dùng rõ ràng, điều này sẽ tạo niềm tin nơi visitor, từ đó sẽ ít xóa cookies hơn.
  • Tránh việc phân tích dữ liệu được thu thập ngắn hơn 24h vì chúng thường không chính xác.
  • Đảm bảo rằng tất cả paid online campaign dùng tracking URL khác so với các nguồn còn lại. GA tự làm việc này cho AdWords.
  • Chú trọng vào chỉ số visit hơn là unique visitor vì chỉ số unique visitor có độ chính xác không cao.

No comments:

Post a Comment