提取Android恶意软件的gram特征,用随机森林训练分类器进行分类

这个仓库Fork自： https://github.com/DQinYuan/AndroidMalwareWithN-gram.git 。参考github链接：链接1 ,链接2 。参考硕士论文

原理

按照一定的标准将指令分为MRGITPV七类，按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理，所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。

我搜集的样本，恶意样本的规模大多都比较小（恶意软件来自virusShare，最大为5.8M），而良性样本的规模大多都很大（良性软件来自应用宝，最大为20M），所以这里提取的特征是按照每种n-gram是否出现，如果出现过就为1，不出现就为0。

良性样本（类别记为1），恶意样本（类别记为0），测试样本（暂且类别设为2），数量分别是154:180:14。

检测方法框架：恶意样本/良性样本→apktool反编译→提取smali文件中的dalvik指令集→生成3-gram→使用机器学习算法训练分类器

软件模块

概述：batch_disasseble.py，bytecode_extract.py，n_gram.py，RF.py是4个可以直接执行的脚本，/infrastructure下的模块全部是给这些脚本提供一些封装好的基础设施，比如smali解析等等。

batch_disasseble.py:将恶意apk从指定目录反汇编到/smalis/malware/目录下，将良性apk从指定目录反汇编到/smalis/kind/目录下的脚本

bytecode_extract.py:将字节码从smali文件中提取出来并映射成其分类，最终存储到当前目录下的data.csv的脚本

n_gram.py:将data.csv提取n_gram特征转换成n_gram.csv的脚本

infrastructure.map:配置了所有字节码到MRGITPV分类的映射关系

infrastructure.smali:Smali类的每个实例代表一个smali文件，用于封装解析smali文件的逻辑

infrastructure.ware:Ware类的实例代表一个安卓app，该类的实例会包含多个Smali实例，这些Smali实例都是从该app反汇编得到的smali文件得到的。.

RF.py:用随机森林训练分类器

如何运行

运行环境：ubuntu18.04, anaconda3（python3.6.5）, pycharm2019, 反汇编工具apktool。

/smalis/malware和/smalis/kind和/smalis/test3个文件夹是存放反汇编结果的目录。

/bit/VirusAndroid和/bit/normalApk和/bit/testAndroid3个文件夹是存放恶意软件和良性软件、测试软件的目录。（这几个文件夹都超级大，没办法上传）

batch_disasseble.py中的virus_root变量的值是存放恶意软件样本根目录，kind_root变量的值是放正常apk样本的目录，test_root变量的值是放测试apk样本的目录。

按照以下顺序执行命令（或者直接执行run.bat，里面写的就是这些命令）：

python batch_disasseble.py
python bytecode_extract.py
python n_gram.py 3
python RF.py

python bytecode_extract.py执行结束后会在当前目录生成一个data.csv，这个是在n-gram处理之前的特征，data.csv由SoftwareName,isMalware,Feature三个字段组成，分别代表软件名称，是否恶意软件（是为0，不是为1）和特征，其中Feature字段是该app的所有操作码（被分为了MRGITPV七类表示），其中用"|"分隔不同的method。

python n_gram.py后面接的参数的含义就是n-gram中的n，命令运行结束之后会在当前目录生成一个n-gram.csv文件，比如我用的python n_gram.py 3，命令执行结束后就会在当前目录生成一个3-gram.csv文件。

运行数据

data.csv，3_gram.csv 前面样本是良性样本，中间是恶意样本，最后是测试样本。

注：本次实验使用的样本很少，不保证结果的准确性，而且反编译时间过长，分类器训练时间在整个实验中占比极小，可以忽略不计，下一步实验要考虑误判率和反编译时间。

通过实验比较，下面N取值3，3-gram Opcode ,使用随机森林算法，运行结果截图如下图所示。

Kassadinsw/AndroidMalware-ngram-RF

提取Android恶意软件的gram特征,用随机森林训练分类器进行分类

原理

软件模块

如何运行

运行数据