Bảy trụ cột thông thái của thống kê học

    Nguyễn Tuấn

    Giáo sư khoa Y trường ĐH New South Wales (UNSW), Australia

    website Sydney, Australia
    Bảy trụ cột thông thái của thống kê học

    Một trong những cuốn sách khoa học mà tôi rất thích trong vài tháng gần đây là cuốn "The Seven Pillars of Statistical Wisdom" của tác giả Stephen M. Stigler 1. Đây là một cuốn sách nhỏ (200 trang) cung cấp cho chúng ta những lí giải cực kì lí thú về khoa học thống kê và lịch sử đằng sau những phương pháp mà chúng ta sử dụng trong suy luận khoa học. Như tựa đề cuốn sách, tác giả Stigler tập trung vào giải thích 7 trụ cột thông thái của thống kê học, và tôi thử tóm lược theo cách hiểu của tôi dưới đây.

    Nhưng trước khi giải thích, tôi thấy cần phải dành vài chữ giải thích ý nghĩa chữ wisdom, mà tôi thấy hơi khó dịch sang tiếng Việt mình. Ở mức độc đơn giản nhất, wisdom là thông thái, khôn ngoan. Nhưng nếu có kinh nghiệm cọ sát với xã hội nói tiếng Anh thì hình như chữ "thông thái" và "khôn ngoan" có vẻ không tương đương với wisdom. Trong ngữ cảnh của tựa đề cuốn sách này, tôi hiểu wisdom như là những tri thức và trải nghiệm được đúc kết qua những trải nghiệm thực tế, cũng giống như những câu ca dao là những tinh tuý về ứng xử ở đời mà cha ông chúng ta đã đúc kết và truyền lại.

    Để hiểu các khái niệm trong sách, cần phải phân biệt dữ liệu (data) và thông tin (information). Dữ liệu là những gì chúng ta thu thập từ nghiên cứu. Để chuyển hoá dữ liệu thành thông tin, chúng ta phải áp dụng phương pháp phân tích thống kê. Nói cách khác, thống kê học là công cụ để chúng ta thu nạp thông tin từ dữ liệu. Dĩ nhiên, từ thông tin, chúng ta có thể biến thành kiến thức (knowledge) qua dùng phương pháp qui nạp khoa học.

    Sau khi phân biệt được sự khác biệt giữa dữ liệu, thông tin, và kiến thức, chúng ta thử điểm qua 7 trụ cột mà tác giả Stigler đề cập trong cuốn sách. Bảy trụ cột này cũng có thể xem là 7 nghịch lí, và tôi sẽ giải thích thêm dưới đây:

    Trụ cột 1 - aggregation: Qui luật loại bỏ dữ liệu để thu nạp thông tin

    Trong phần này, Stigler lí giải và đưa ra một nhận xét làm chúng ta ngạc nhiên: đó là chúng ta thu nạp kiến thức bằng cách loại bỏ thông tin! Chẳng hạn như đối phó với một dãy số liệu về chiều cao, chúng ta chỉ cần tính một số trung bình, và dùng nó như là một thông tin để kiến tạo tri thức. Còn tất cả những con số để tạo nên số trung bình thì bị loại bỏ, không được đề cập đến. Mỗi ngày, chúng ta đọc và nghe biết bao số trung bình, từ thị trường chứng khoán, chính sách kinh tế, đến nghiên cứu y khoa, tất cả đều dùng số trung bình để đi đến những quyết định phức tạp.

    Lịch sử và sự ra đời của con số trung bình cũng được tác giả diễn giải rất tường tận. Thống kê học, hay ít ra là các khái niệm thống kê học, đã được sử dụng trong thiên văn học từ thế kỉ 18, phải đợi đến giữa thế kỉ 19 thì mới thịnh hành. Lí do là vấn đề đo lường và liên quan đến giá trị trung bình. Tác giả Stigler chỉ ra rằng nếu chúng ta đo lường [chẳng hạn như] Sao Mộc, thì chúng ta biết rõ đó là một thực thể, nó ở một vị trí và chúng ta có thể ước tính sai số. Nhưng nếu chúng ta đo lường tuổi thọ hay mức độ lạm phát kinh tế, thì chúng ta không có được cái "xa xỉ" như đo lường Sao Mộc, bởi vì những biến số như tuổi thọ nó xuất phát từ mẫu mà chúng ta có được và chúng ta không biết được giá trị thật của quần thể. Người có công đầu trong việc phát kiến trị số trung bình là Nhà khoa học người Bỉ Adolphe Quetelet (người sáng tạo ra chỉ số body mass index). Vào năm 1831, Quetelet "sáng chế" ra cái mà ông gọi là "L'homme Moyen" (người trung bình). Người trung bình là một cá nhân hư cấu, với giá trị trung bình mà chúng ta có thể sử dụng để đại diện một nhóm người. Do đó, Quetelet tính chiều cao và trọng lượng trung bình của một nhóm lính Pháp, rồi xem đó là một người lính tiêu biểu. Nhưng Quetelet hiểu được rằng trị số trung bình sẽ dao động giữa các nhóm lính, và ông bàn về độ chính xác cũng như cách tính. Từ đó, khoa học thống kê có một giá trị mà sau này trở thành phổ biến nhất và được áp dụng trong hầu như bất cứ lĩnh vực xã hội nào. Cái bất ngờ mà tác giả Stigler chỉ ra rằng chúng ta có cái giá trị tiêu biểu bằng cách loại bỏ dữ liệu!

    Trụ cột 2 - information: Qui luật giảm lượng thông tin

    Giả dụ như nếu chúng ta ước tính số trung bình quần thể dựa trên 100 đối tượng (và gọi là x1), và số trung bình dựa trên 200 đối tượng (x2), câu hỏi đặt ra là giá trị của thông tin trong x2 cao gấp 2 lần so với giá trị thông tin trong x1? Câu trả lời là không. Trong thực tế, nếu chúng ta tăng lượng dữ liệu gấp 2 lần thì giá trị thông tin chỉ tăng khoảng 1.4 lần. Nếu chúng ta tăng lượng dữ liệu gấp 3 lần thì lượng thông tin chỉ tăng 1.7 lần.

    Từ đâu mà có các con số đó? Tác giả chỉ ra một sự thật hiển nhiên từ công thức tính sai số chuẩn (standard error). Sai số chuẩn bằng độ lệch chuẩn chia cho căn số bậc 2 của số cỡ mẫu; hay nói cách khác, độ lệch chuẩn bằng sai số chuẩn nhân cho căn số bậc 2 của lượng dữ liệu. Chẳng có gì mới ở đây, vì De Moivre đã chỉ ra từ 1738, và đó cũng chính là lí thuyết đằng sau Định lí giới hạn trung tâm (Central Limit Theorem).

    Nhưng cái hay ở đây là tác giả Stigler đã đưa ra một cách diễn giải rất có ý nghĩa trong bối cảnh Dữ liệu Lớn (Big Data) đang rất thịnh hành như là một xu hướng thống kê "thời thượng". Những người tin vào Dữ liệu Lớn nghĩ rằng bằng cách tăng lượng dữ liệu thì chúng ta sẽ có thông tin chính xác hơn, đáng tin cậy hơn. Đúng nhưng chưa đủ, bởi vì lượng thông tin không phải là hàm số tuyến tính của lượng dữ liệu.

    Trụ cột 3 - likelihood: Thu nạp thông tin từ tình trạng bất định

    Trong chương này, tác giả Stigler bàn về lí thuyết khả dĩ (Likelihood). Trong phần này, tác giả Stigler lí giải rằng chúng ta thu nạp thông tin từ dữ liệu qua các phương pháp như kiểm định thống kê (test of significance) và trị số P mà Ronald Fisher đề xướng từ năm 1925, cùng với những phương pháp sau này như khoảng tin cậy 95%. Các phương pháp này cũng đã giúp chúng ta giảm sự bất định trong cuộc sống. Kiểm định thống kê mà Ronald Fisher đề xướng không phải là ý tưởng mới, bởi vì phương cách này đã được John Arbuthnot áp dụng trước đó để tính toán xem hiện tượng sinh con trai nhiều hơn con gái là do ý của Thượng đế hay ngẫu nhiên!

    Trụ cột 4 - intercomparison: So sánh.

    Bất cứ ai làm nghiên cứu khoa học cũng cần so sánh. Thường là so sánh hai nhóm xem có khác nhau một cách có hệ thống hay khác biệt chỉ là do yếu tố ngẫu nhiên. Phương pháp kiểm định t (do William Gosset đề xướng) là một phương pháp quen thuộc. Một phương pháp so sánh khác cũng hay được áp dụng là phân tích phương sai (ANOVA hay analysis of variance) do Ronald Fisher phát kiến. Trong khi các ngành khác, người ta so sánh với một chuẩn vàng (gold standard), thì khoa học thống kê so sánh thông tin trong cùng một dữ liệu, một nghiên cứu.

    Những ai đọc sách sử thống kê học đều biết rằng William Gosset từng làm việc cho hãng bia Guiness, và công việc của ông lúc đó là kiểm nghiệm chất lượng bia. Trong nhiệm vụ đó, ông phải làm nghiên cứu nhưng thường dựa trên số mẫu nhỏ, và "cái khó ló cái khôn", ông đã sáng chế ra phương pháp so sánh khác biệt dựa vào cỡ mẫu nhỏ. Trong một dịp nghỉ hè (sabbatical) ông thăm labo của Karl Pearson tại University College London, và viết bài báo nổi tiếng. Khi bài báo được gửi cho tập san thống kê học, ông không được kí tên thật (vì là nhân viên của Guiness), nên phải kí dưới bút danh là "Student". Từ đó, khoa học có phương pháp kiểm định gọi là "Student's test".

    Trụ cột 5 - regression: Thu nạp thông tin từ qui luật hồi qui về số trung bình

    Một trong những phương pháp để chúng ta thu nạp thông tin rất hữu hiệu là mô hình hồi qui tuyến tính (linear regression model). Mô hình này là một triển khai từ phương pháp phân tích tương quan (correlation analysis). Phân tích tương quan là phương pháp do Nhà nhân chủng học trứ danh Francis Galton đề xướng từ cuối thế kỉ 19. Lúc đó, Galton đang nghiên cứu về ảnh hưởng của di truyền đến trí thông minh, và ông dùng chiều cao là một marker. Ông quan sát rằng những cặp cha mẹ có chiều cao thấp hơn trung bình thường sinh con có chiều cao cao hơn cha mẹ; ngược lại, những cặp vợ chồng có chiều cao cao thường sinh con có chiều cao thấp hơn họ. Đây là hiện tượng hồi qui về số trung bình, hay thuật ngữ tiếng Anh là "regression to the mean".

    Đây là một trong những chương hay nhất của cuốn sách. Tác giả bắt đầu với câu chuyện về Charles Darwin, một người em họ của Francis Galton. Darwin là người không thích toán, không phải ông kém khả năng về toán, mà ông cho rằng toán không giúp gì cho khoa học! Darwin đề ra ý tưởng gọi là "The Rule of Three" hay "Qui luật tam suất". Ông nói nếu chúng ta biết rằng a/b = c/d và nếu chúng ta biết 3 số, thì chúng ta có thể xác định được số thứ 4. Nhưng trong thực tế, chúng ta cần nhiều tập hợp 4 giá trị để ước tính tham số của mô hình hồi qui tuyến tính. Nhưng ý tưởng về phân loại chủng vật của Darwin sau này lại nhờ các phương pháp phân tích đa biến giúp đỡ rất nhiều. Tất cả các phương pháp phân tích đa biến đều xuất phát từ mô hình hồi qui tuyến tính.

    Trụ cột 6 - design: Thu nạp thông tin từ số ngẫu nhiên

    Ngạc nhiên thay, chúng ta thu nạp thông tin cơ chế ... ngẫu nhiên hoá. Ý nghĩa của trụ cột này cần một vài lời giải thích. Thiết kế là một phương pháp thu nạp thông tin có hệ thống. Nhưng thiết kế là phải dùng đến cơ chế ngẫu nhiên hoá (randomization). Chẳng hạn nếu chúng ta muốn đánh giá hiệu quả của một thuốc điều trị bệnh, chúng ta phải chia nhóm bệnh nhân một cách ngẫu nhiên để đảm bảo các nhóm đều có những yếu tố nhiễu giống nhau.

    Thật ra, có thể xem thiết kế nghiên cứu là một cách tối ưu hoá. Trong chương này, tác giả Stigler dìu dắt chúng ta qua lịch sử của thiết kế nghiên cứu hết sức thú vị. Ý tưởng thiết kế nghiên cứu để thu nạp thông tin xuất phát từ sổ số bên Pháp vào năm 1757. Sổ số lúc đó đóng góp 4% cho ngân sách của Pháp (có lẽ giống như sổ số tràn lan hiện nay ở Việt Nam). Sau đó khi Ronald Fisher làm việc cho Trạm thí nghiệm Rothamsted, ông mới nghĩ ra phương pháp chia nhóm ngẫu nhiên (randomization). Trong một bài diễn thuyết trong Hội nghị Thống kê học Ấn Độ năm 1938, Fisher tuyên bố rằng "To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of" (Tư vấn nhà thống kê học sau khi thí nghiệm đã làm xong có thể ví von như là hỏi nhà thống kê học làm một cuộc giảo nghiệm tử thi. Nhà thống kê học có thể nói cái thí nghiệm chết vì lí do gì.) Ý của Fisher là muốn thí nghiệm có kết quả tốt và muốn thu nạp thông tin đáng tin cậy thì phải tư vấn nhà thống kê học trước khi làm thí nghiệm -- một lời khuyên vẫn còn ý nghĩa thời sự ngày hôm nay. Nhưng việc này đòi hỏi nhà thống kê phải hiểu vấn đề khoa học và hiểu qui trình suy luận khoa học.

    Trụ cột 7 - residual: Thu nạp thông tin từ ... sai số

    Khi nói "sai số" ở đây, tôi muốn nói đến dao động dư, tức "residuals" hay "error terms" trong mô hình hồi qui tuyến tính. Trong khoa học, thỉnh thoảng chúng ta phát hiện những cái bình thường từ những dữ liệu bất bình thường. Cái bất bình thường ở đây chính là residuals, là sai số từ mô hình. Chẳng hạn như để phát hiện những gen có liên quan đến bệnh lí, chúng ta sẽ mô hình phân bố của gen dựa vào một qui luật sinh học, và các dữ liệu nằm ngoài hay lệch so với giá trị kì vọng chính là những gen đáng quan tâm. Như vậy, chúng ta phát hiện cái cơ chế sinh học từ những dữ liệu và thông tin bất thường.

    Điều này có ý nghĩa rất quan trọng cho nhà thống kê học. Đối với những nhà thống kê học được huấn luyện trong các đại học mà không có tương tác với khoa học, phân tích dao động dư là để kiểm định tính hợp lí của mô hình của họ. Nhưng đối với khoa học, điều đó chẳng quan trọng; điều quan trọng là những dữ liệu mà mô hình không giải thích được.

    Cuốn sách được viết với văn phong khoa học nhưng vẫn hấp dẫn với người ngoài khoa học. Nhưng thỉnh thoảng, tác giả có vẻ giả định người đọc phải hiểu một số khái niệm thống kê học. Chẳng hạn như người đọc phải "động não" để hiểu L(Θ)=L(Θ)|Χ and Cov(L,W)=E{Cov(L,W|S)}+Cov(E{L|S}, E{W|S})! Nhưng may mắn thay, nhưng công thức loại này chỉ xuất một vài lần trong sách, và người đọc không cần hiểu chúng mà vẫn nắm được ý nghĩa đằng sau các mô hình thống kê.

    Tóm lại, cuốn sách "The Seven Pillars of Statistical Wisdom" là một tác phẩm rất hay và đáng đọc. Tác phẩm này hay là vì tác giả đã đem đến cho chúng ta những cái nhìn rất tươi, với những lí giải rất mới về những phương pháp thống kê cổ điển. Chỉ trong 200 trang sách mà tác giả đã lược qua những điểm chính (7 điểm) trong suốt chiều dài lịch sử của chuyên ngành khoa học thống kê. Cuốn sách còn giúp cho chúng ta, những người làm nghiên cứu thực nghiệm, hiểu sâu hơn về các phương pháp thống kê, và qua đó giúp chúng ta suy nghĩ một cách thống kê, chứ không phải suy nghĩ như là một công cụ. Xin nhấn mạnh: tôi xem thống kê học là một cách suy nghĩ. Thay vì tập trung vào những chi tiết tính toán, chúng ta cần phải hiểu ý nghĩa đằng sau của các phương pháp và mô hình thống kê. Nếu bạn là nhà thống kê học, nhà khoa học thực nghiệm, cuốn sách "The Seven Pillars of Statistical Wisdom" phải có trong tủ sách của các bạn.


    Chú thích:

    1. Stephen M. Stigler là giáo sư xuất sắc chuyên ngành sử thống kê thuộc Đại học Chicago. Ông tốt nghiệp tiến sĩ thống kê học từ Đại học California, Berkeley, nhưng sau đó ông chuyển về Đại học Wisconsin, Madison, và năm 1979 thì chuyển sang Đại học Chicago cho đến nay. Ông công bố nhiều công trình nghiên cứu về sử thống kê rất có giá trị. Những công trình này được đúc kết thành cuốn sách "The History of Statistics" (1986) và "Statistics on the Table" (1999). Ngoài vai trò là sử gia của khoa học thống kê, ông còn biên tập phần lí thuyết cho tập san Journal of the American Statistical Association (1979-1982). Với những thành tích đó, Stigler là người có thẩm quyền để viết về những ý nghĩa đằng sau 7 wisdom thống kê mà tôi đang giới thiệu đến các bạn.