/ComplexNetwork-DataMining

复杂网络 + 数据挖掘

Primary LanguageJupyter Notebook

复杂系统和复杂网络





复杂网络方向大佬主页和 Google 学术



科研机构--倾向人类行为方向



学习课程,资源

  • Complexity- Explore(introduction to complexity

    免费! 复杂网络,相关基础知识,数学理论等(开始的几个unit 很简单)---部分中文字幕,,实际老师英文说的很慢 而且很好听很舒服,不太需要字幕 有作业,习题和测试,会有答案。

  • 斯坦福CS224w

  • 机器学习速成课

    谷歌出品,中文机器翻译发音--- 有关于Embedding 的部分

  • 序列模型

    • 吴恩达老师--网易云课堂---讲解关于embedding的基础理解


工具



数据集收集

  • 有关 商品,音乐等浏览trajectory 的 隐式反馈数据集


相关文献阅读

link



相关书籍阅读

link



汇总参考



搬砖步骤




胡思乱想

1.
  • LDA 现在用于图像分类, 考虑时序的LDA 能否用于视频分类
2.
  • 神经元中 可否加入负 神经元 ------- 类似于 物理中的正负电子对,抵消一条边的作用,可以 专门的定向的控制边是否连接
3.
  • Multi-armd bundit 的想法,每次收益要么是零要么是1 ; 类似于量子力学的 电子自旋状态
4.
  • Boltzman--- Maxwell 分布------------热统里面 能量最低的计算
5.
  • 自动元胞机的 影响机制类似于 ---- 固体物理的 一维,3维的晶格振动
6.
  • Sigmod 函数 费米分布
  • Softmax 层 能量到正则分布的概率密度
  • 卷积提取特征 重正化
  • Markov 场的规范化系数 正则配分函数
  • Markov 场的能量函数 Ising模型的能量函数 🌟
  • Bayes 场的概率分解 复杂网络的处理方法
  • 变分贝叶斯 量子力学的 Hartree-Fock 方法,统计物理的空腔磁场法,平均场理论
  • 基函数展开扩展的线性模型 量子力学的利兹变分
  • 流形学习 从牛顿力学到拉格朗日力学/哈密顿力学,把问题从平凡流形放到嵌入子流形,实现降维 🌟
  • 卡尔曼滤波 朗之万动力学粒子滤波
  • 重要采样,非平衡统计物理的线性响应理论

作者:董玉龙 链接:https://www.zhihu.com/question/50946897/answer/330185784



有趣的研究新思路

  • 应用拓扑几何的方法分析贫困和欠发达的城市街区 -- Evernote --2018

  • 哈工大刘挺教授:中文信息处理前沿技术进展----- Evernote --2018

  • Session-based Recommendation with Graph Neural Networks -- link--2018

会话序列被聚合在一起并被建模为图结构数据。基于该图,GNN可以捕获项目的复杂转换,这些转换很难通过传统的顺序方法显示出来,然后,使用关注网络将每个会话表示为全局偏好的组成和会话的当前兴趣.


  • Spatio-temporal prediction of crimes using network analytic approach-- link

本文中,我们使用网络分析技术分析与其他社会信息源融合的芝加哥城市犯罪数据,以预测明年的犯罪活动。我们观察到,随着我们添加更多层代表社会不同方面的数据,预测质量得到了提高。我们的预测模型不仅可以预测整个芝加哥城市的犯罪总数,而且可以预测所有类型犯罪的犯罪数量以及芝加哥市的不同地区。


  • Uncovering intimate and casual relationships from mobile phone communication--link

我们使用移动电话用户的元数据(包括年龄,性别和计费地点)分析大型移动电话呼叫数据集,以揭示同龄人或类似年龄的个人之间关系的性质。我们表明,除了用户的年龄和性别之外,在他们的自我中心网络中关于用户等级的信息对于描述同伴的亲密和随意关系是至关重要的。发现亲密关系中的异性对显示出最高水平的呼叫频率和日常规律,这与对浪漫伴侣的小规模研究一致。接下来是亲密关系中的同性对,而对于偶然关系中的对,观察到最低的呼叫频率和每日规律性。我们还发现,与年龄较小的一对相比,较旧的一对呼叫频率较低,而且频率较低,而平均呼叫持续时间对年龄的依赖程度更为复杂。我们希望更详细的分析可以帮助我们更好地描述同伴关系的本质,并更清楚地区分各种类型的关系,如兄弟姐妹,朋友和浪漫伴侣。


  • Why Topology Matters in Predicting Human Activities--link

通过底层街道的拓扑关系(注意:整条街道而不是街道区域)可以更好地理解地理空间,这使我们能够看到比连接良好的街道更少连接的街道的尺度或分形或生活结构。正是这种潜在的尺度结构使得人类活动可以预测,尽管是集体而非个人的移动行为。这种拓扑分析尚未在文献中得到应有的重视,因为许多研究人员继续依赖分段分析来预测人类活动。基于分段分析的方法基本上是几何的,侧重于位置,长度和方向的几何细节,并且不能揭示尺度属性,这意味着它们不能用于人类活动预测。我们使用伦敦街道和推文位置数据进行了一系列案例研究,基于相关概念,如自然街道和自然街道段(或简称街道段),轴线和轴线段(或简称线段) 。我们发现,自然街道是人类活动或交通预测方面的最佳代表,其次是轴线,并且街道段和线段都不具有网络参数和推文位置之间的良好相关性。这些发现表明,基于轴线的空间句法或一般拓扑分析的工作原理与个人的旅行行为或人类概念化距离或空间的方式无关。相反,它是街道的基础扩展层次结构 - 许多连接最少,连接最少,连接最少和连接最多的一些 - 使人类活动可预测。


  • Explaining Latent Factor Models for Recommendation with Influence Functions---link

推荐系统的隐因子模型的可解释性方法


Modeling Dynamic Missingness of Implicit Feedback for Recommendation

推荐系统中 隐式负反馈的缺失研究


  • SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient--- link --- 上海交通大学 ,2017年

解决 Gan 模型 对于离散的 tokens。预测结果不好的改善,, 结合了增强学习的策略网络

At each step, the “state” was the existing words in the sequence, and the agent’s “action” was trying to choose its next word


  • IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models---- Link

This paper provides a unified account of two schools of thinking in information retrieval modelling: the generative retrieval focusing on predicting relevant documents given a query, and the discriminative retrieval focusing on predicting relevancy given a query-document pair. We propose a game theoretical minimax game to iteratively optimise both models. On one hand, the discriminative model, aiming to mine signals from labelled and unlabelled data, provides guidance to train the generative model towards fitting the underlying relevance distribution over documents given the query. On the other hand, the generative model, acting as an attacker to the current discriminative model, generates difficult examples for the discriminative model in an adversarial way by minimising its discrimination objective. With the competition between these two models, we show that the unified framework takes advantage of both schools of thinking: (i) the generative model learns to fit the relevance distribution over documents via the signals from the discriminative model, and (ii) the discriminative model is able to exploit the unlabelled data selected by the generative model to achieve a better estimation for document ranking. Our experimental results have demonstrated significant performance gains as much as 23.96% on Precision@5 and 15.50% on MAP over strong baselines in a variety of applications including web search, item recommendation, and question answering.

GAN 模型 做信息检索 ---- 推荐系统


  • 网络上时变局部信息的自适应扩散过--Adaptive Diffusion Processes of Time-Varying Local Information on Networks--Link--2018

本文主要讨论了具有时变耦合的复杂网络上的扩散。我们提出了一个模型来描述局部拓扑和动态信息的自适应扩散过程,并发现Barabasi-Albert无标度网络(BA网络)有利于扩散,并使节点达到比其他网络更大的状态值。做。节点的扩散能力与其自身的程度有关。具体而言,具有较小度数的节点更可能改变其状态并且达到较大值,而具有较大度数的节点倾向于保持其原始状态。我们引入状态熵来分析扩散过程的热力学机制,并有趣地发现这种扩散过程是状态熵的最小化过程。我们使用不等式约束优化方法来揭示最小化的限制函数,并发现它具有与吉布斯自由能相同的形式。热力学概念使我们能够从全新的角度理解复杂网络上的动态过程。该结果提供了在实际电路以及相关复杂系统上优化相关动态过程的便利方式。


  • GC-LSTM:用于动态链路预测的图卷积嵌入式LSTM-- Link

动态链路预测是复杂网络领域的研究热点,特别是在生物学,社会网络,经济和工业中的广泛应用。与静态链路预测相比,由于网络结构随着时间的推移而发展,动态链路预测要困难得多。目前大多数研究都集中在静态链路预测上,这在动态网络中无法达到预期的性能。针对低AUC,高错误率,添加/删除链路预测难度,我们提出GC-LSTM,一种图卷积网络(GC)嵌入式长短期内存网络(LTSM),用于端到端动态链路预测。据我们所知,这是第一次将GCN嵌入式LSTM用于动态网络的链路预测。这个新的深度模型中的GCN能够为每个时间段滑动节点结构学习网络快照,而LSTM负责网络快照的时间特征学习。此外,当前的动态链路预测方法只能处理删除的链接,GC-LSTM可以同时预测添加或删除的链接。进行了大量实验以证明其在预测准确度,误差率,添加/删除链路预测和关键链路预测方面的性能。结果证明GC-LSTM优于当前最先进的方法。


  • Click-sequence-aware DeeP Neural Network (DNN)-based Pop-uPs RecOmmendation--- link

基于用户的点击序列的一种推荐系统,


  • Neural Personalized Ranking via Poisson Factor Model for Item Recommendation --- link

常规的隐式反馈 通常转化为 0,1 这样的二进制的表示,本文提出


  • 元胞自动机分析交通系统 --- link 1 --- link 2

  • 通过数据挖掘恒星的光变曲线寻找太阳系外的新行星---- link


  • 自动将质谱输出映射到肽链上----link