Đừng hỏi tổ quốc có thể làm cho bạn; hỏi những gì bạn có thể làm cho đất nước của bạn. "
-John F. Kennedy, 1961
Khi nói đến các bài diễn văn chính trị, những người lớn rất ít và xa giữa. Nhưng bài diễn văn chính trị bình thường, những người được đưa ra trong các cuộc tranh luận Mỹ sàn của Quốc hội, ví dụ, là rất nhiều.
Họ cũng gần tương tự. Những bài diễn văn có xu hướng theo một định dạng chuẩn, lặp lại lập luận tương tự, và thậm chí sử dụng các cụm từ giống nhau để chỉ ra một liên kết chính trị cụ thể hoặc ý kiến. Nó gần như là nếu có một số loại thuật toán xác định nội dung của họ.
Điều đó đặt ra một câu hỏi thú vị. Là nó có thể cho một máy tính để viết các loại diễn văn chính trị tự động?
Hôm nay, chúng tôi nhận được một câu trả lời nhờ công việc của Valentin Kassarnig tại Đại học Massachusetts, Amherst, người đã tạo ra một máy trí tuệ nhân tạo đã được học cách viết chính trị bài phát biểu đó là đáng kể tương tự như bài phát biểu thực sự.
phương pháp là đơn giản về nguyên tắc. Kassarnig sử dụng một cơ sở dữ liệu của gần 4.000 phân đoạn bài phát biểu chính trị từ 53 quốc hội Mỹ tranh luận sàn để đào tạo một thuật toán học máy để sản xuất các bài phát biểu của riêng mình.
Những phát biểu bao gồm hơn 50.000 câu từng chứa 23 chữ trên trung bình. Kassarnig cũng phân loại các bài phát biểu của đảng chính trị, cho dù đảng Dân chủ hay đảng Cộng hòa, và cho dù đó là ủng hộ hoặc chống lại một chủ đề nhất định.
Tất nhiên, ma quỷ là trong các chi tiết về làm thế nào để phân tích cơ sở dữ liệu này. Sau khi đã thử một số kỹ thuật, Kassarnig giải quyết trên một cách tiếp cận dựa trên n-gram, trình tự của các từ hoặc cụm từ "n". Ông lần đầu tiên phân tích các văn bản sử dụng một cách tiếp cận phần-of-speech rằng thẻ mỗi từ hoặc cụm từ có vai trò ngữ pháp của nó (cho dù là một danh từ, động từ, tính từ, vv).
Sau đó ông nhìn 6-gram và xác suất của một từ hoặc cụm từ đảng xuất hiện cho năm xuất hiện trước đó. "Điều đó cho phép chúng tôi xác định rất nhanh chóng tất cả các từ mà có thể xảy ra sau năm trước những người thân và làm thế nào có khả năng mỗi trong số họ," ông nói.
Quá trình phát biểu tạo ra tự động sau từ này. Kassarnig bắt đầu bằng cách nói với các thuật toán loại ngôn luận nó là vụ phải viết thư cho dù cho đảng Dân chủ hay đảng Cộng hòa. Các thuật toán sau đó khám phá những cơ sở dữ liệu 6-gram cho thể loại đó để tìm toàn bộ các 5-gram đã được sử dụng để bắt đầu một trong những bài diễn văn.
Các thuật toán sau đó chọn một trong những 5 gram ngẫu nhiên để bắt đầu bài phát biểu của mình. Sau đó chọn từ kế tiếp từ tất cả những điều đó có thể làm theo 5 gram. "Sau đó, hệ thống bắt đầu dự đoán từng từ cho đến khi nó dự đoán kết thúc bài phát biểu," ông nói.
Có vài thủ thuật trên đường đi, tất nhiên. Các thuật toán biết, ví dụ, xác suất mà một chủ đề cụ thể sẽ xuất hiện trong một bài phát biểu. Sau đó chọn chủ đề bằng cách làm việc ra những chủ đề khác phát biểu đã được chứa và xác định như thế nào này đang được bảo hiểm.
Các kết quả đáng kinh ngạc. Dưới đây là một ví dụ về một bài phát biểu của đảng Dân chủ tự động tạo ra:
"Ông Loa, trong nhiều năm qua, người tiêu dùng trung thực nhưng không may đã có khả năng biện hộ của họ để đi theo bảo hộ phá sản và có khoản nợ hợp lý, hợp lệ của họ thải ra. Cách hệ thống là làm việc, tòa án phá sản đánh giá các yếu tố khác nhau bao gồm cả thu nhập, tài sản và các khoản nợ để xác định những khoản nợ có thể được thanh toán và cách thức người tiêu dùng có thể nhận được trở lại trên đôi chân của mình. Hãy đứng lên cho sự tăng trưởng và cơ hội. Thông qua dự luật này. "
Đó là ấn tượng cho rằng không có đào tạo liên quan đến khác hơn so với các bộ phận ban đầu của các thẻ bài phát biểu, phân tích 6-gram của các cơ sở dữ liệu bài phát biểu chính trị và một chút nước sốt ảo thuật. Kassarnig đã đánh giá những bài phát biểu chống lại các tiêu chí như chính xác ngữ pháp, quá trình chuyển đổi câu và cấu trúc luận và nội dung và thấy rằng họ thường thực hiện tốt. "Đặc biệt, tính chính xác về ngữ pháp và quá trình chuyển đổi câu của hầu hết các bài diễn văn rất tốt," ông nói.
Tuy nhiên, Kassarnig không lạc quan về cơ hội của thuật toán mình lấy sân khấu chính trị của cơn bão. "Mặc dù các kết quả tốt nó là rất không chắc rằng các phương pháp này sẽ được thực sự sử dụng để tạo ra các bài phát biểu cho các chính trị gia," ông nói, có lẽ vì các loại chính trị gia vô đạo đức có thể khai thác các thuật toán của mình là rất hiếm (ho).
Tuy nhiên, thuật toán có thể được sử dụng để tạo ra các loại văn bản. Kassarnig cho thấy rằng nó có thể tạo ra những câu chuyện tin tức, đưa những câu chuyện khác về sự cố tương tự. . Một lựa chọn khác có thể là để sản xuất bài viết blog về các giấy tờ arXiv, đưa ra một cơ sở dữ liệu lớn các câu chuyện tương tự (ahem)
Và ông khuyến khích bất cứ ai để có một đi, nói rằng tất cả các mã nguồn của mình là có sẵn trên GitHub (https: // github. com / valentin012 / conspeech). "Chúng tôi rõ ràng khuyến khích người khác hãy thử sử dụng, sửa chữa và mở rộng nó," ông nói. "Phản hồi và ý tưởng để cải thiện được chào đón nhất."
Ref: arxiv.org/abs/1601.03313: Chính trị Speech hệ
đang được dịch, vui lòng đợi..
