Để xây dựng một mô hình ngôn ngữ một corpus của hơn
80.000 văn bản đầy đủ truy cập mở bài báo khoa học đã
thu được từ PubMed Central. Các bài viết này được
cung cấp trong một định dạng XML đơn giản mà đã được phân tích cú pháp
để sản xuất các tài liệu văn bản đơn giản bằng cách sử dụng chỉ mục
của các bài viết có chứa văn xuôi contentful (tức là bằng cách
không bao gồm các phần như ví dụ
đang được dịch, vui lòng đợi..
