Xác suất có thật sự tồn tại?

Xác suất có thật sự tồn tại?

Bài dịch từ “Does probability exist?”, David Spiegelhalter, Nature 636, 560-563 (2024)

Trong cuộc sống hằng ngày, sự không chắc chắn thường được diễn đạt bằng lời nói, trong Anh ngữ có các từ như “could”, “might” hoặc “is likely to”. Nhưng những từ ngữ diễn tả sự không chắc chắn có thể bị hiểu sai và dẫn đến những hệ quả nghiêm trọng. Năm 1961, tổng thống Hoa Kì mới đắc cử John F.Kennedy được thông báo về một kế hoạch do CIA tài trợ nhằm tấn công Cuba. Ông yêu cầu các quan chức quân đội cấp cao đưa ra đánh giá. Họ đã kết luận rằng nhiệm vụ có 30% khả năng thành công – tức là, có 70% thất bại. Tuy nhiên, trong báo cáo gửi đến tổng thống, điều này được diễn giải thành “một cơ hội công bằng” (a fair chance). Sự kiện xâm lược Vịnh Con Lợn đã diễn ra và trở thành một thảm họa. Hiện nay đã có các thang đo được thiết lập để chuyển đổi các từ ngữ không chắc chắn thành các con số gần đúng. Ví dụ, bất kỳ ai trong cộng đồng tình báo Anh sử dụng thuật ngữ “likely” đều nên hiểu rằng khả năng xảy ra nằm trong khoảng từ 55% – 75%.

Nguồn: https://www.gov.uk/government/news/defence-intelligence-communicating-probability

Nguồn: https://www.gov.uk/government/news/defence-intelligence-communicating-probability

Những nỗ lực diễn đạt sự may rủi và sự không chắc chắn thành những con số dẫn đến toán học xác suất, mà ngày nay được sử dụng trong hầu hết các lĩnh vực nghiên cứu. Ví dụ, bất kì tạp chí khoa học nào cũng dễ dàng tìm thấy các giá trị P (P-value), khoảng tin cậy (confidence interval) và phân phối hậu nghiệm Bayes (Bayesian posterior distributions), tất cả đều phụ thuộc vào xác suất.

…………………………

Để hiểu được bản chất khó nắm bắt của khái niệm xác suất, hãy xem xét cách khái niệm này được sử dụng trong dự báo thời tiết ngày nay. Các nhà khí tượng học đưa ra dự đoán về nhiệt độ, tốc độ gió, lượng mưa, và thường là với con số phần trăm xác suất chẳng hạn như 70% cho một thời điểm và địa điểm nhất định. Nhiệt độ, tốc độ gió, lượng mưa có thể được so sánh với các giá trị thực của chúng; vì có thể đo lường giá trị thực vào một thời điểm trong tương lai để so sánh với giá trị dự báo. Thế nhưng, không tồn tại một giá trị xác suất thực để so sánh với đánh giá của người dự báo. Không có cái gọi là đồng hồ đo xác suất (probability-ometer). Hoặc là mưa, hoặc là không mưa.

Còn có một bài học khác ở đây. Ngay cả khi có một mô hình thống kê về những gì nên xảy ra, thì điều này luôn dựa trên các giả định chủ quan (subjective assumption) – trong trường hợp tung đồng xu, rằng có hai kết quả có khả năng xảy ra ngang nhau. Điều này có thể bị khẳng định một cách vội vàng, hấp tấp.

2. Chủ quan và khoa học

Lập luận của tôi là bất kỳ ứng dụng thực tế nào của xác suất đều liên quan đến các phán đoán chủ quan (subjective judgement). Điều này không có nghĩa là tôi có thể đưa ra bất kỳ con số nào – tôi sẽ bị chứng minh là một người đánh giá xác suất kém nếu tuyên bố với độ chắc chắn 99,9% rằng mình có thể bay khi nhảy từ mái nhà. Thế giới khách quan (objective world) xuất hiện khi xác suất và các giả định cơ bản của chúng được kiểm định với thực tế; nhưng điều đó không có nghĩa rằng bản thân xác suất là khách quan.

Đây là một ví dụ về tầm quan trọng thực sự của khoa học. Ngay sau khi đại dịch COVID-19 bắt đầu, các thử nghiệm phục hồi (RECOVERY trial) đã bắt đầu thử nghiệm các liệu pháp trên những người nhập viện vì COVID-19 tại Vương quốc Anh. Trong một thí nghiệm, hơn 6.000 người được phân phối ngẫu nhiên vào 2 nhóm; nhóm 1 nhận được sự chăm sóc tiêu chuẩn được cung cấp tại bệnh viện nơi họ đang được điều trị; nhóm 2 nhận được sự chăm sóc như nhóm 1 và cộng thêm một liều dexamethasone, một loại steroid giá rẻ. Nguy cơ tử vong hàng ngày đã điều chỉnh theo độ tuổi thấp hơn 29% trong nhóm được phân bổ dexamethasone so với nhóm chỉ được chăm sóc tiêu chuẩn (khoảng tin cậy 95% là 19–49%). P-value, nghĩa là xác suất được tính toán để quan sát một rủi ro tương đối cực đoan như vậy khi chấp nhận giả thuyết vô hiệu (null hypothesis) – tức là giả thuyết không có sự khác biệt giữa 2 nhóm, được tính toán là 0.01%.

Những giả định vội vàng đó không nhất thiết dẫn đến một kết quả phân tích sai. Trong trường hợp này, tín hiệu (signal) quá mạnh đến mức một mô hình cho phép, chẳng hạn, rủi ro cơ bản thay đổi giữa những người tham gia sẽ không tạo ra nhiều khác biệt đối với kết luận chung. Tuy nhiên, nếu kết quả có biên độ lớn hơn (more marginal), thì việc phân tích mở rộng về độ nhạy (sensitivity) của mô hình đối với các giả định thay thế là phù hợp.

…………………………

Xin lưu ý rằng tôi không nói về thế giới lượng tử. Ở cấp độ dưới nguyên tử, toán học chỉ ra rằng các sự kiện không có nguyên nhân có thể xảy ra với xác suất cố định (mặc dù ít nhất một cách giải thích nêu rằng ngay cả những xác suất đó cũng thể hiện mối quan hệ với các vật thể hoặc người quan sát khác, thay vì là các đặc tính nội tại của các vật thể lượng tử). Nhưng có vẻ như điều này có ảnh hưởng không đáng kể đến các sự kiện được quan sát hàng ngày trong thế giới vĩ mô.

Nhiều nỗ lực đã được thực hiện để làm điều này trong nhiều năm, nhưng đều có những hạn chế. Những nỗ lực này bao gồm xác suất tần suất (frequentist probability), một phương pháp xác định tỷ lệ các sự kiện sẽ được nhìn thấy trong vô số lần lặp lại của các tình huống giống hệt nhau – ví dụ, lặp lại cùng một thử nghiệm lâm sàng trong cùng một quần thể với cùng các điều kiện nhiều lần. Điều này có vẻ khá phi thực tế. Nhà thống kê Ronald Fisher đã đề xuất việc nghĩ về một tập dữ liệu duy nhất như một mẫu từ một quần thể giả định vô hạn (hypothetical infinite population), nhưng điều này có vẻ giống một thí nghiệm tư duy hơn là một thực tế khách quan. Hoặc có ý tưởng mang tính bán huyền bí rằng tồn tại một khuynh hướng thực sự tiềm ẩn đối với một sự kiện cụ thể xảy ra trong một bối cảnh nhất định, chẳng hạn như tôi sẽ bị đau tim trong vòng mười năm tới. Điều này có vẻ như không thể xác minh được.

Trong thế giới tự nhiên, chúng ta có chuyển động của tập hợp các phân tử khí, ngay cả khi tuân theo vật lý Newton, vẫn phù hợp với các quy luật thống kê; và di truyền học, trong đó sự phức tạp của quá trình chọn lọc và tái tổ hợp nhiễm sắc thể tạo ra tỷ lệ di truyền ổn định. Trong những trường hợp hạn chế này, có thể hợp lý khi giả định một xác suất giả khách quan (a pseudo-objective probability), thay vì một xác suất chủ quan (subjective probability).

…………………………

Một trong những nỗ lực đầu tiên được thực hiện vào năm 1926 bởi nhà toán học Frank Ramsey tại Đại học Cambridge, Vương quốc Anh. Ramsey đã chứng minh rằng tất cả các quy luật xác suất (laws of probability) có thể được bắt nguồn từ sở thích đối với những trò cá cược. Các kết quả được gán giá trị lợi ích (utility), và việc đánh cược được tóm lại bởi giá trị lợi ích kỳ vọng (expected utility), vốn được xác định bởi các con số mang tính chủ quan biểu thị phần nào niềm tin – tức là các xác suất cá nhân của chúng ta. Tuy nhiên, cách diễn giải này đòi hỏi phải chỉ định các giá trị lợi ích cụ thể. Gần đây hơn, người ta đã chứng minh rằng các quy luật xác suất có thể được suy ra đơn giản bằng cách hành động nhằm tối đa hóa hiệu suất kỳ vọng khi sử dụng một quy tắc chấm điểm phù hợp, chẳng hạn như quy tắc được trình bày trong hộp văn bản “Tôi mù mờ đến mức nào?” (How ignorant am I?) bên dưới đây:

Những nỗ lực định nghĩa xác suất thường khá mơ hồ. Ví dụ, trong bài báo năm 1941-2 “The Applications of Probability to Cryptography”, Alan Turing sử dụng định nghĩa “Xác suất của một sự kiện trên một số bằng chứng nhất định là tỷ lệ các trường hợp mà sự kiện đó có thể được mong đợi xảy ra dựa trên bằng chứng đó”. Điều này thừa nhận rằng xác suất thực tế dựa trên kỳ vọng – phán đoán của con người. Nhưng khi nói đến “các trường hợp”, Turing hàm ý rằng các trường hợp của cùng quan sát hay của cùng phán đoán?

…………………………

Tuy nhiên, trên thực tế, có lẽ chúng ta không cần phải quyết định xem liệu xác suất khách quan có thực sự tồn tại trong thế giới phi lượng tử không. Thay vào đó, chúng ta có thể áp dụng cách tiếp cận thực dụng. De Finetti đã đưa ra lập luận thuyết phục nhất cho cách tiếp cận này trong tác phẩm năm 1931 của ông về “Khả năng trao đổi” (exchangeability), dẫn đến một định lý nổi tiếng mang tên ông. Một chuỗi sự kiện được coi là có thể trao đổi (exchangeable) nếu xác suất chủ quan của chúng ta đối với mỗi chuỗi không bị ảnh hưởng bởi thứ tự quan sát của chúng ta. De Finetti đã chứng minh một cách xuất sắc rằng giả định này về mặt toán học tương đương với việc hành động như thể các sự kiện là độc lập, mỗi sự kiện có một xác suất xảy ra và rằng sự không chắc chắn của chúng ta về xác suất chưa biết đó được thể hiện bằng một phân phối xác suất nhận thức chủ quan (a subjective, epistemic probability distribution). Điều này thật đáng chú ý: nó cho thấy rằng, bắt đầu từ một biểu hiện cụ thể nhưng hoàn toàn chủ quan của niềm tin, chúng ta nên hành động như thể các sự kiện được thúc đẩy bởi xác suất khách quan.

Xác suất có lẽ không tồn tại – nhưng thường hữu ích khi hành động như thể nó tồn tại.
Probability probably does not exist – but it is often useful to act as if it does.

Related Posts

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *