Những kết quả của mô hình phân bố loài này do Google phát triển, với sự hợp tác của QCIF và EcoCommons, thể hiện các kết quả ước tính về khả năng xuất hiện tương đối của loài (tức là giá trị càng cao thì khả năng loài được phát hiện tại một vị trí càng cao, đối với một phương pháp khảo sát nhất định và nỗ lực khảo sát nhất định, so với giá trị thấp hơn).
Các thông tin này được tạo bằng mô hình mạng nơ-ron đồ thị đa loài dị thể, được huấn luyện chung dựa trên dữ liệu quan sát loài của Cơ sở dữ liệu thông tin đa dạng sinh học toàn cầu cho 174 loài động vật có vú ở Úc từ năm 2017 đến năm 2024 (bao gồm cả năm 2024), kết hợp với dữ liệu đặc điểm và phân loại loài cho cùng một loài từ COMBINE, cũng như dữ liệu vệ tinh và môi trường do AlphaEarth Foundations nhúng. Một giai đoạn trước của công việc này và cấu trúc mô hình được mô tả tại đây. Số liệu ước tính về phạm vi phân bố địa lý của các loài được thực hiện tại c. Độ phân giải 1 km (ô S2 cấp 13).
Những bản phân phối này nhằm hỗ trợ các sáng kiến bảo tồn như Khung đa dạng sinh học toàn cầu, trong đó có mục tiêu 30×30. Có khả năng các bản phân phối có thể được cải thiện đáng kể thông qua việc tinh chỉnh bằng dữ liệu quan sát thêm về loài (nếu có).
Các hạn chế:
- Trạng thái thử nghiệm: Những kết quả này chỉ nhằm mục đích minh hoạ nghiên cứu ban đầu và chưa được đánh giá ngang hàng.
- Xác thực tổng hợp so với xác thực cụ thể: Đầu ra của mô hình cho một lần chạy trước đó được mô tả trong bài viết đã được đánh giá chung dựa trên Bản đồ khu vực cư trú do chuyên gia tạo ra (trung bình ROC AUC = 0,89 trên tất cả các loài, AUC ROC > 0,9 cho từng loài được phát hành), nhưng chưa được các chuyên gia về loài kiểm tra theo từng loài.
- Các hạn chế về dữ liệu chỉ có sự hiện diện: Các mô hình này chủ yếu được huấn luyện dựa trên dữ liệu chỉ có sự hiện diện. Đầu ra thể hiện khả năng phát hiện tương đối dựa trên nỗ lực khảo sát hiện tại, thay vì xác suất thực tế về số lượng người cư trú.
- Thiên kiến về dữ liệu đầu vào: Độ chính xác của những bản đồ này vốn dĩ liên kết với các tập dữ liệu đầu vào. Dữ liệu quan sát đa dạng sinh học được biết là có sai lệch về không gian, thời gian và phân loại (thường phản ánh khả năng tiếp cận gần đường hoặc trung tâm dân cư thay vì sự phân bố sinh học thực sự). Chúng tôi cũng nhận thấy dữ liệu quan sát về các loài phản ánh sự bất bình đẳng về xã hội và chính trị. Những thành kiến này có thể được truyền vào đầu ra cuối cùng của mô hình.
Bản xem trước thử nghiệm này được phát hành vào ngày 5 tháng 11 năm 2025.