. Third, sophisticated tools for automating the process of fingerprinting the user’s browser, obfuscating the exploit code, and delivering it to the victim, are easily obtainable (e.g., NeoSploit, and LuckySploit [15]). The mix of widespread, vulnerable targets and effective attack
mechanisms has made drive-by downloads the technique of choiceto compromise large numbers of end-user machines. In 2007, Provos et al. [28] found more than three million URLs that launched drive-by-download attacks. Even more troubling, malicious URLs are found both on rogue web sites, that are set up explicitly for
the purpose of attacking unsuspecting users, and on legitimate web
sites, that have been compromised or modified to serve the malicious content (high-profile examples include the Department of
Homeland Security and the BusinessWeek news outlet [10, 11]).
A number of approaches have been proposed to detect malicious web pages. Traditional anti-virus tools use static signatures
to match patterns that are commonly found in malicious scripts [2].
Unfortunately, the effectiveness of syntactic signatures is thwarted
by the use of sophisticated obfuscation techniques that often hide
the exploit code contained in malicious pages. Another approach
is based on low-interaction honeyclients, which simulate a regular browser and rely on specifications to match the behavior, rather
than the syntactic features, of malicious scripts (for example, invoking a method of an ActiveX control vulnerable to buffer overflows
with a parameter longer than a certain length) [14, 23]. A problem with low-interaction honeyclients is that they are limited by the
coverage of their specification database; that is, attacks for which a
specification is not available cannot be detected. Finally, the stateof-the-art in malicious JavaScript detection is represented by highinteraction honeyclients. These tools consist of full-featured web
browsers typically running in a virtual machine. They work by
monitoring all modifications to the system environment, such as
files created or deleted, and processes launched [21, 28, 37, 39]. If
any unexpected modification occurs, this is considered as the manifestation of an attack, and the corresponding page is flagged as
malicious. Unfortunately, also high-interaction honeyclients have
limitations. In particular, an attack can be detected only if the vulnerable component (e.g., an ActiveX control or a browser plugin)
targeted by the exploit is installed and correctly activated on the de-
tection system. Since there exist potentially hundreds of such vulnerable components, working under specific combinations of operating system and browser versions, the setup of a high-interaction
honeyclient and its configuration is difficult and at risk of being incomplete. As a consequence, a significant fraction of attacks may
go undetected. (Indeed, Seifert, the lead developer of a popular
high-interaction honeyclient, says, “high-interaction client honeypots have a tendency to fail at identifying malicious web pages,
producing false negatives that are rooted in the detection mechanism” [32].)
In this paper, we propose a novel approach to the automatic detection and analysis of malicious web pages. For this, we visit web
pages with an instrumented browser and record events that occur
during the interpretation of HTML elements and the execution of
JavaScript code. For each event (e.g., the instantiation of an ActiveX control via JavaScript code or the retrieval of an external resource via an iframe tag), we extract one or more features whose
values are evaluated using anomaly detection techniques. Anomalous features allow us to identify malicious content even in the case
of previously-unseen attacks. Our features are comprehensive and
model many properties that capture intrinsic characteristics of attacks. Moreover, our system provides additional details about the
attack. For example, it identifies the exploits that are used and the
unobfuscated version of the code, which are helpful to explain how
the attack was executed and for performing additional analysis.
We implemented our approach in a tool called JSAND (JavaScript
Anomaly-based aNalysis and Detection), and validated it on over
140,000 web pages. In our experiments, we found that our tool
performed significantly better than existing approaches, detecting
more attacks and raising a low number of false positives. We also
made JSAND available as part of an online service called Wepawet
(at http://wepawet.cs.ucsb.edu), where users can submit URLs and files that are automatically analyzed, delivering detailed reports about the type of observed attacks and the targeted
vulnerabilities. This service has been operative since November
2008 and analyzes about 1,000 URLs per day submitted from users
across the world.
In summary, our main contributions include:
A novel approach that has the ability to detect previouslyunseen drive-by downloads by using machine learning and
anomaly detection.
The identification of a set of ten features that characterize
intrinsic events of a drive-by download and allow our system
to robustly identify web pages containing malicious code.
An analysis technique that automatically produces the deobfuscated version of malicious JavaScript code, characterizes
the exploits contained in the code, and generates exploit signatures for signature-based tools.
An online service that offers public access to our tool
. Thứ ba, tinh vi công cụ để tự động hoá quá trình fingerprinting duyệt của người dùng, obfuscating mã khai thác và cung cấp nó cho các nạn nhân, có thể đạt được một cách dễ dàng (ví dụ như, NeoSploit, và LuckySploit [15]). Sự pha trộn của mục tiêu phổ biến rộng rãi, dễ bị tổn thương và tấn công hiệu quả cơ chế đã làm cho đua xe tải kỹ thuật thỏa hiệp thân một số lượng lớn của người dùng cuối máy. Trong năm 2007, Provos et al. [28] tìm thấy nhiều hơn ba triệu URL đó tung ra các ổ đĩa bằng cách tải về cuộc tấn công. Hơn đáng lo ngại, độc hại URL được tìm thấy cả hai trên các trang web rogue, mà được thiết lập một cách rõ ràng nhấtmục đích tấn công người dùng không ngờ, và trên các trang web hợp phápCác trang web, mà đã được thỏa hiệp hoặc cải tiến để phục vụ nội dung độc hại (cấu hình cao ví dụ bao gồm tỉnhAn ninh quốc gia và các cửa hàng tin tức BusinessWeek [10, 11]).Một số phương pháp tiếp cận đã được đề xuất để phát hiện các trang web độc hại. Truyền thống chống vi-rút công cụ sử dụng tĩnh chữ kýđể phù hợp với mô hình phổ biến được tìm thấy trong script độc hại [2].Thật không may, hiệu quả của các cú pháp chữ ký cản trởbằng cách sử dụng kỹ thuật tinh vi obfuscation thường ẩnmã khai thác chứa trong trang web độc hại. Một cách tiếp cậnDựa trên tương tác thấp honeyclients, mà mô phỏng một trình duyệt thường xuyên và dựa vào thông số kỹ thuật để phù hợp với các hành vi, thay vào đóso với các tính năng cú pháp, các kịch bản độc hại (ví dụ, gọi một phương pháp của một ActiveX kiểm soát dễ bị tổn thương để đệm trànvới một tham số dài hơn chiều dài nhất định) [14, 23]. Một vấn đề với tương tác thấp honeyclients là họ được giới hạn bởi cácvùng phủ sóng của cơ sở dữ liệu đặc điểm kỹ thuật của họ; có nghĩa là, các cuộc tấn công mà mộtđặc điểm kỹ thuật là không có sẵn không thể được phát hiện. Cuối cùng, bác đại trong độc hại dung JavaScript phát hiện được đại diện bởi highinteraction honeyclients. Những công cụ này bao gồm đầy đủ tính năng webtrình duyệt thường chạy trong máy ảo. Họ làm việc bằngGiám sát tất cả sửa đổi cho môi trường hệ thống, chẳng hạn nhưtập tin tạo ra hoặc bị xóa, và quá trình đưa ra [21, 28, 37, 39]. Nếubất kỳ sửa đổi bất ngờ xảy ra, điều này được coi là biểu hiện của một cuộc tấn công, và trang tương ứng được đánh dấu nhưđộc hại. Thật không may, cũng tương tác cao honeyclients cóhạn chế. Đặc biệt, một cuộc tấn công có thể được phát hiện chỉ nếu thành phần dễ bị tổn thương (ví dụ như, một điều khiển ActiveX hoặc một plugin trình duyệt)nhắm mục tiêu của việc khai thác cài đặt và kích hoạt một cách chính xác trên de -Hệ thống tection. Kể từ khi có tồn tại có khả năng hàng trăm thành phần dễ bị tổn thương như vậy, làm việc theo các kết hợp cụ thể của hệ điều hành và phiên bản trình duyệt, thiết lập một sự tương tác caohoneyclient và cấu hình của nó là khó khăn và nguy cơ bị không đầy đủ. Kết quả là, một phần đáng kể của cuộc tấn công có thểđi không bị phát hiện. (Thật vậy, Seifert, các nhà phát triển dẫn của một phổ biếntương tác cao honeyclient, nói, "khách hàng tương tác cao honeypots có xu hướng không thành công tại xác định trang web độc hại,sản xuất âm sai được bắt nguồn từ trong cơ chế phát hiện"[32].)Trong bài này, chúng tôi đề xuất một cách tiếp cận mới để tự động phát hiện và phân tích của các trang web độc hại. Đối với điều này, chúng tôi ghé thăm trang webTrang với một trình duyệt instrumented và ghi lại các sự kiện xảy ratrong việc giải thích của phần tử HTML và thực hiệnMã JavaScript. Cho mỗi sự kiện (ví dụ như, instantiation của điều khiển ActiveX qua mã JavaScript) hoặc thu hồi một nguồn tài nguyên bên ngoài thông qua một thẻ khung nội tuyến, chúng tôi trích xuất một hoặc nhiều tính năng màgiá trị được đánh giá bằng cách sử dụng kỹ thuật phát hiện bất thường. Bất thường các tính năng cho phép chúng tôi để xác định các nội dung độc hại ngay cả trong trường hợpcuộc tấn công trước đó thần bí. Các tính năng của chúng tôi là toàn diện vàMô hình nhiều tài sản đó nắm bắt các đặc tính nội tại của cuộc tấn công. Hơn nữa, Hệ thống của chúng tôi cung cấp thêm chi tiết về cáctấn công. Ví dụ, nó xác định khai thác được sử dụng và cácunobfuscated Phiên bản mã, đó là hữu ích để giải thích như thế nàocuộc tấn công được thực hiện và để thực hiện phân tích bổ sung.Chúng tôi thực hiện phương pháp tiếp cận của chúng tôi trong một công cụ được gọi là JSAND (JavaScriptAnomaly-based phân tích và phát hiện), và xác nhận nó trên140.000 trang web. Trong các thí nghiệm của chúng tôi, chúng tôi thấy rằng công cụ của chúng tôithực hiện tốt hơn đáng kể so với phương pháp tiếp cận hiện tại, phát hiệnThêm các cuộc tấn công và nâng cao một số lượng thấp của quả dương giả. Chúng tôi cũngthực hiện JSAND có sẵn như là một phần của một dịch vụ trực tuyến được gọi là Wepawet(lúc http://wepawet.cs.ucsb.edu), nơi người dùng có thể gửi URL và các tập tin được tự động phân tích, cung cấp các báo cáo chi tiết về các loại quan sát cuộc tấn công và các mục tiêulỗ hổng. Dịch vụ này đã được tác kể từ tháng mười một2008 và phân tích URL khoảng 1.000 mỗi ngày gửi từ người dùngtrên toàn thế giới.Tóm lại, chúng tôi đóng góp chính bao gồm:Một cách tiếp cận mới có khả năng phát hiện previouslyunseen lái xe-bằng tải bằng cách sử dụng máy học vàphát hiện bất thường.Việc xác định của một tập hợp các tính năng mười đặc trưngCác sự kiện nội tại của lái xe của một tải xuống và cho phép hệ thống của chúng tôiđủ xác định trang web có chứa mã độc hại.Một kỹ thuật phân tích tự động tạo ra các phiên bản deobfuscated của đoạn mã JavaScript độc hại, đặc trưngkhai thác các chứa trong các mã, và tạo ra khai thác chữ ký cho công cụ cơ bản chữ ký.Một dịch vụ trực tuyến cung cấp khu vực truy cập công cụ của chúng tôi
đang được dịch, vui lòng đợi..