/AndroidMalware-ngram-RF

基于机器学习的android恶意代码检测,n-gram opcode + RandomForest

Primary LanguageHTML

提取Android恶意软件的gram特征,用随机森林训练分类器进行分类

这个仓库Fork自: https://github.com/DQinYuan/AndroidMalwareWithN-gram.git 。 参考github链接: 链接1 ,链接2参考硕士论文

原理

按照一定的标准将指令分为MRGITPV七类,按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理,所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。

我搜集的样本,恶意样本的规模大多都比较小(恶意软件来自virusShare,最大为5.8M),而良性样本的规模大多都很大(良性软件来自应用宝,最大为20M),所以这里提取的特征是按照每种n-gram是否出现,如果出现过就为1,不出现就为0。

良性样本(类别记为1),恶意样本(类别记为0),测试样本(暂且类别设为2),数量分别是154:180:14。

检测方法框架:恶意样本/良性样本→apktool反编译→提取smali文件中的dalvik指令集→生成3-gram→使用机器学习算法训练分类器

软件模块

概述:batch_disasseble.py,bytecode_extract.py,n_gram.py,RF.py是4个可以直接执行的脚本,/infrastructure下的模块全部是给这些脚本提供一些封装好的基础设施,比如smali解析等等。

batch_disasseble.py:将恶意apk从指定目录反汇编到/smalis/malware/目录下,将良性apk从指定目录反汇编到/smalis/kind/目录下的脚本

bytecode_extract.py:将字节码从smali文件中提取出来并映射成其分类,最终存储到当前目录下的data.csv的脚本

n_gram.py:将data.csv提取n_gram特征转换成n_gram.csv的脚本

infrastructure.map:配置了所有字节码到MRGITPV分类的映射关系

infrastructure.smali:Smali类的每个实例代表一个smali文件,用于封装解析smali文件的逻辑

infrastructure.ware:Ware类的实例代表一个安卓app,该类的实例会包含多个Smali实例,这些Smali实例都是从该app反汇编得到的smali文件得到的。.

RF.py:用随机森林训练分类器

如何运行

运行环境:ubuntu18.04, anaconda3(python3.6.5), pycharm2019, 反汇编工具apktool。

/smalis/malware和/smalis/kind和/smalis/test3个文件夹是存放反汇编结果的目录。

/bit/VirusAndroid和/bit/normalApk和/bit/testAndroid3个文件夹是存放恶意软件和良性软件、测试软件的目录。(这几个文件夹都超级大,没办法上传)

batch_disasseble.py中的virus_root变量的值是存放恶意软件样本根目录,kind_root变量的值是放正常apk样本的目录,test_root变量的值是放测试apk样本的目录。

按照以下顺序执行命令(或者直接执行run.bat,里面写的就是这些命令):

python batch_disasseble.py
python bytecode_extract.py
python n_gram.py 3
python RF.py

python bytecode_extract.py执行结束后会在当前目录生成一个data.csv,这个是在n-gram处理之前的特征,data.csv由SoftwareName,isMalware,Feature三个字段组成,分别代表软件名称,是否恶意软件(是为0,不是为1)和特征,其中Feature字段是该app的所有操作码(被分为了MRGITPV七类表示),其中用"|"分隔不同的method。

python n_gram.py后面接的参数的含义就是n-gram中的n,命令运行结束之后会在当前目录生成一个n-gram.csv文件,比如我用的python n_gram.py 3,命令执行结束后就会在当前目录生成一个3-gram.csv文件。

运行数据

data.csv,3_gram.csv 前面样本是良性样本,中间是恶意样本,最后是测试样本。

注:本次实验使用的样本很少,不保证结果的准确性,而且反编译时间过长,分类器训练时间在整个实验中占比极小,可以忽略不计,下一步实验要考虑误判率和反编译时间。

通过实验比较,下面N取值3,3-gram Opcode ,使用随机森林算法,运行结果截图如下图所示。

运行结果截图