Trong cuộc sống hàng ngày, chúng ta thường muốn dự đoán khi nào mà máy móc hỏng hóc, khi nào thì đồ dùng hết hạn… Những vấn đề như thế được gọi là survival analysis.

Giới thiệu

Khái niệm

Survival analysis là một nhánh của thống kê tập trung vào việc phân tích thời gian để một sự kiện xảy ra, ví dụ như sự kiện tử vong, đột quỵ (trong dịch tễ), hoặc sự kiện bị hư hỏng (đối với máy móc),…

Ứng dụng

Trong dịch tễ hay y khoa thì việc phân tích thời gian tử vong hoặc tái phát các bệnh như ung thư được sử dụng phổ biến để so sánh các nhóm điều trị khác nhau.
Ví dụ như có 2 nhóm bệnh nhân, nhóm I sử dụng thuốc A và nhóm II sử dụng thuốc B. Để biết được thuốc nào có hiệu quả hơn thì survival analysis giúp ta so sánh được sự khác biệt trong thời gian sống còn của 2 nhóm bệnh nhân này.
Trong ngành kĩ thuật thì survival analysis có một cái tên khác là reliability theory hay reliability analysis tập trung vào các vòng đời của các hệ thống máy móc và các chi tiết máy trong hệ thống đó. Dự đoán được thời gian mà một chi tiết máy nào đó bị hỏng để lập kế hoạch bảo trì, bảo dưỡng.
Trong bài viết này và những bài viết sau thì tôi chỉ tập trung vào ứng dụng của survival analysis trong lĩnh vực y khoa.

Mô tả bài toán

Đặc trưng của bài toán

Chúng ta quan sát một nhóm bệnh nhân mắc bệnh ung thư để tìm hiểu thời gian sống còn của từng bệnh nhân. Khi ghi nhận dữ liệu thì ta sẽ thấy một số điểm sau:
  • Dữ liệu thường không tuân theo phân phối chuẩn, và thường bị lệch (skewed).
  • Một số bệnh nhân còn sống hoặc rút lui khỏi nghiên cứu. Dữ liệu đối với các bệnh nhân này gọi là censored.
 
“Calendar time” = “Thời gian theo lịch”, “Patients” = “Bệnh nhân”, “Time from diagnosis” = “Thời gian tính từ lúc phát bệnh (theo năm)”.
Đây là dữ liệu ung thư buồng trứng ở 10 bệnh nhân. Hình bên trái là thời gian tử vong theo lịch và nguyên nhân tử vong. Hình bên phải là thời gian tử vong tính từ lúc phát hiện bệnh (R: tái phát, D: chết do ung thư, Do: chết do nguyên nhân khác, A: lần đi khám gần nhất, L: rút khỏi nghiên cứu, x: chết, □: censored).

Survival và Hazard

Dữ liệu thường được miêu tả và mô hình hoá bằng hai giá trị là survivalhazard. Survival hay survival function là xác suất mà một bệnh nhân còn sống qua thời điểm .
trong đó là thời gian sống còn của bệnh nhân. thường là một hàm giảm dần, vì càng về sau, xác suất sống sót càng thấp.
Còn hazard hay hazard function là xác suất mà bệnh nhân tử vong ngay tại thời điểm .
Mối liên hệ giữa được thể hiện qua công thức sau:
Ý nghĩa: toán tử logarithm được dùng để khuếch đại cho thuận tiện tính toán, vì giá trị của nó bé hơn 1 và càng về sau sẽ càng gần 0. Dấu “-” được dùng để làm cho nhận giá trị dương. Phép đạo hàm theo biến thể hiện sự thay đổi tức thời của xác suất sống sót (chính xác hơn là logarithm của xác suất sống sót) tại thời điểm .
Có rất nhiều phương pháp, cả tham số và phi tham số, để ước tính được . Sau đây là một phương pháp phi tham số cổ điển.

Kaplan-Meier estimator

Lý thuyết

Với phương pháp này chúng ta quan sát các bệnh nhân censored và uncensored. Với một mẫu quan sát gồm bệnh nhân tử vong tại các thời điểm phân biệt . Tỉ lệ các đối tượng tồn tại sau thời điểm được ước tính bởi công thức sau đây:
Trong đó: là số bệnh nhân tử vong tại thời điểm
là số bệnh nhân còn sống trước thời điểm
Chúng ta có thể viết lại công thức để tính theo

Ví dụ

Ví dụ sau đây là một nghiên cứu 49 bệnh nhân ung thư đại trực tràng. Nhà nghiên cứu quan sát trên 2 nhóm bệnh nhân: nhóm sử dụng axit -linoleic và nhóm chứng (hay còn gọi là nhóm đối chiếu, tiếng Anh là control group). Kết quả như sau
Điều trị
Thời gian sống sót (tháng)
Axit -linoleic (n=25)
1+, 5+, 6, 6, 9+, 10, 10+, 12, 12, 12, 12, 12+, 13+, 15+, 16+, 20+, 24, 24+, 27+, 32, 34+, 36+, 36+, 44+
Kiểm soát (n=24)
3+, 6, 6, 6, 6, 8, 8, 12, 12, 12+, 15+, 16+, 18+, 18+, 20, 22+, 24, 28+, 28+, 28+, 30, 30+, 33+, 42
Dấu + thể hiện bệnh nhân bị censored.
Quá trình tính toán bằng Kaplan - Meier estimator (ở nhóm bệnh nhân nhận điều trị):
  • Tại thời điểm thì (tất cả bệnh nhân còn sống).
  • Khoảng thời gian sau khi nhận điều trị đến tháng thứ 6, không có bệnh nhân nào tử vong. Các bệnh nhân censored được loại khỏi nghiên cứu. Trước thời điểm 6 tháng có 2 bệnh nhân censored nên số bệnh nhân còn sống là 25 - 2 = 23.
  • Có 2 người chết ở tháng 6.
Lặp lại quá trình tính toán, ta có bảng kết quả sau:
Ở nhóm chứng, ta cũng tính toán tương tự. Từ số liệu tính toán được ta vẽ được Kaplan - Meier curve của 2 nhóm
Theo hình trên thì survival median time (tương ứng với ) của nhóm chứng là 30 tháng và của nhóm điều trị bằng -linoleic acid là 32 tháng. Để biết được giữa 2 nhóm có sự khác biệt có ý nghĩa thống kê hay không thì ta sử dụng log-rank test.

Log-rank test

Lý thuyết

Để so sánh survival curve giữa 2 nhóm ta dùng phép kiểm định log-rank test. Giả thiết trong trường hợp này là: “Không có sự khác nhau về khả năng sống sót giữa 2 nhóm”.
Log-rank test so sánh số ca tử vong quan sát được đối với nhóm và số ca tử vong như kì vọng bằng cách tính giá trị
Để tính được các giá trị thì chúng ta cần tính được các giá trị tại các thời điểm . Ngay trước thời điểm , giả sử chúng ta có hai nhóm bệnh nhân “at risk” (chưa trải qua sự kiện mà cũng chưa censored) có số lượng tương ứng là . là số sự kiện quan sát được tại thời điểm tại 2 nhóm trên. Chúng ta sẽ có kì vọng của số ca tử vong tại thời điểm
trong đó , .

Ví dụ

Với ví dụ ở trên, ta lập bảng tính toán ở 2 nhóm.
Trong tháng 1:
  • Nhóm chứng:
    • Số bệnh nhân “at risk”:
    • Không có bệnh nhân nào tử vong:
  • Nhóm điều trị:
    • Số bệnh nhân “at risk”:
    • Không có bệnh nhân nào tử vong:
Ta tính được:
Do đó, kì vọng của số ca tử vong được tính:
Lặp lại quá trình tính toán ta có bảng kết quả:
Tháng
Control (n=24)
Gamma-linoleic acid (n=25)
N(i,j)
O(i,j)
E(i,j)
N(i,j)
O(i,j)
E(i,j)
1
24
0
0
25
0
0
3
24
0
0
24
0
0
5
24
0
0
24
0
0
6
23
4
3
23
3
4
8
19
2
0.95
21
0
1.05
9
17
0
0
21
0
0
10
17
0
0.918918919
20
2
1.081081
12
17
2
3
17
3
2
13
14
0
0
12
4
0
15
14
0
0
11
0
0
16
13
0
0
10
0
0
18
12
0
0.526315789
9
0
0.473684
20
10
1
0
9
0
0
22
9
0
0
8
0
0
24
8
1
1
6
1
1
27
7
0
0
5
0
0
30
4
1
0.444444444
5
0
0.555556
32
3
0
0.375
4
1
0.625
34
2
0
0
3
0
0
36
2
0
0
3
0
0
42
1
1
0.666666667
2
0
0.333333
44
0
0
0
1
1
1
Tổng
12
12
10.88134582
10
10
11.11865
Từ bảng kết quả, ta có .
Thay vào công thức để tính được giá trị . So sánh giá trị với phân phối với độ tự do , với là số nhóm.
Kết quả là , , ().
Kết luận: Không có sự khác biệt có ý nghĩa thống kê giữa 2 nhóm. Điều này cho thấy không đủ cơ sở cho rằng việc sử dụng -linoleic acid cải thiện thời gian sống còn của bệnh nhân ung thư đại trực tràng.

Tài liệu tham khảo

Có thể bạn quan tâm?