好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA

还没有回答的问题,欢迎认领 https://github.com/memect/hao/issues

给我们提建议

目录

许可证

本站内容许可证:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License Creative Commons License


最近的问答

2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 http://www.weibo.com/5220650532/Bi6AwyhV1?mod=weibotime

2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 http://www.weibo.com/5220650532/Bi6fQ8wYq?mod=weibotime

2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 http://www.weibo.com/5220650532/Bi3VHfSFP?mod=weibotime

2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA http://www.weibo.com/5220650532/Bi3ti7wAd?mod=weibotime

2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon http://www.weibo.com/5220650532/Bi3axDIR8?mod=weibotime

2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 http://www.weibo.com/5220650532/BhWzutAft?mod=weibotime

2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW http://www.weibo.com/5220650532/BhWo26Y93?mod=weibotime

2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj http://www.weibo.com/5220650532/BhWdIDon6?mod=weibotime

2014-08-12 问:@all_shuffle cassandra调优的资料 答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ]

2014-08-10 @唐小sin 问:现在社交网络的研究焦点在哪? 答:感谢清华大学@唐杰THU 教授提供答案,在他与密歇根大学梅俏竹教授合写的综述《数据挖掘学科发展报告》第2.2 部分“社交网络分析和图挖掘研究”分析了诸多前沿方向,如网络结构分析、图模式挖掘、信息传播和影响力建模等,可供参考 http://t.cn/RPNVntW http://www.weibo.com/5220650532/BhCrZ8DO1?mod=weibotime

2014-08-10 http://t.cn/RPNLDbW 用Python打造图像分析应用你需要知道的15个软件包:计算基础Numpy Scipy 图像基础matoplotlib PIL/Pillow 图像进阶OpenCV SimpleCV mahotas scikit-learn ilastik 其他pprocess h5py scikit-image Medpy 完整列表 http://t.cn/RPNLDb0 http://www.weibo.com/5220650532/BhBkrkfWg?mod=weibotime

2014-08-09 如何用Python打造高可用性网站?这组来自highscalability的文章展示了如何利用Python服务以亿计用户的网站,包括耳熟能详的Youtube(视频)、Reddit和Digg(新闻分享)、Dropbox(云存储)、Instagram和Pinterest(图片分享)等。下次有人疑问Python的性能,和ta分享这组文章吧 http://t.cn/RPCutKS http://www.weibo.com/5220650532/BhxxQjtja?mod=weibotime

2014-08-09 @我爱机器学习 问: 判断两张图片是否是同一内容(只考虑光照、倾斜、模糊、偏移等因素)的资料有否?答:@CD--挨踢民工巍然 推荐了lire,OpenIMAJ @申砾 推荐了pHash。lire和OpenIMAJ都是java的,openimag可以处理视频,关键点匹配,人脸识别等。pHash是C++的图像哈希软件 http://t.cn/RP9aFVz http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime

2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? 答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ]

2014-08-08 问: @ai_东沂 木有关于社会化标签挖掘的相关资料? 答: 社会化标签(folksonomy)在十年前很热了一阵,相关研究也主要集中在那一段时间(印第安那的一个博士生整理了一个文献清单)。还有两个综述论文(KDD那篇来自韩家伟的学生,另一篇KER来自一个语义Web的研究组)。不太全面,欢迎指正。http://memect.co/eOcfnQA [ [微博](http://www.weibo.com/5220650532/Bhl1QAnEn) ]

2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ]

2014-08-08 问:@andeguangshaqianwanjian 求python做神经网络的资料 答:找到十个工具,pythonWiki5个,Github里2个,其他(好像比前两类常用)3个。http://memect.co/no0jyMY [ [微博](http://www.weibo.com/5220650532/BhkMjyL4g?mod=weibotime) ]



2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ]

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ]

2014-08-07 ansj分词的作者@ansj 为我们介绍中文分词。工具有Java的Ansj分词、结巴分词Python版与C++版。基础文章《中文分词的原理与实践》。常用的算法:条件随机场CRF, 隐马尔科夫模型HMM。常用数据结构:Trie树和双数组 http://t.cn/RPSQlCE @ansj发起了nlpcn.org开放自由的NLP平台,NLPer都该去瞅瞅 [ [微博](http://www.weibo.com/5220650532/Bh9WGeljD?mod=weibotime) ]

2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的**卫生统计数据**是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、**的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ]

2014-08-06 @uso小驴酱 问**sparse representation for computer vision** CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](memect#25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ]

2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h [ [讨论](memect#52) ] [微博](http://www.weibo.com/5220650532/Bh173BPZf?mod=weibotime) ]

2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ]

2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ]
  • 2014-08-05 [公开课] 斯坦福的计算广告学入门。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ 微博 ]

  • 2014-08-05 回答集编程(Answer Set Programming)是一种强大的规则推理语言。它可以用于解决那些困难(例如NP-hard)的问题。从数据库查询,自然语言理解,生物信息学,到石油勘探,ASP有非常广泛的应用。@Logician_wolfel 推荐了一组最新的ASP教程 http://t.cn/RP6kRm4 有逻辑的问题请教他没错 [ 微博 ]

  • 2014-08-04 @昊奋 关于知识图谱的第二组推荐:知识图谱的构建及其应用,介绍了probabilisic KB(Google) KnowledgeVault,Sonya, Satori/Probase (Microsoft),YAGO,LOD2等重要的知识图谱系统。知识库构建,实体抽取、实体链接,查询理解和扩展, 语义搜索,等基础技术汇集在10篇核心文献http://t.cn/RP6JCGn [ 微博 ]

  • 2014-08-04 @西瓜大丸子汤 问:识别水贴(微博,回复,留言)和有价值的贴。这个各路英雄有没有能指点一下的? @刘知远THU 答:刚看到 软件学报 上有篇研究综述:网络水军识别研究。 @QPCN 答:今年www有个tutorial,utah state的lee,关键词crowdturfing 汇总如下: http://t.cn/RP6MOOV 欢迎增补 [ 微博 ]

  • 2014-08-04 SSDB是一个高性能 NoSQL 数据库, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ 讨论 ] [ 微博 ]

  • 2014-08-04 极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ 讨论 ] [ 微博 ]

  • 2014-08-04 @AOzil 问:可否推荐一些创意自适应的资料 答:Creative Optimization是一种面向用户自动优化广告内容与展示的技术。斯坦福大学计算广告学入门 http://t.cn/RPiQ6Zn 阐述了基本概念 10个相关厂家从不同侧面的介绍与宣传 http://t.cn/RPiQ6Zm 新闻 和国内专家@刘铁岩 的评论 http://t.cn/RPiQ6ZR [ 讨论 ] [ 微博 ]

  • 2014-08-04 @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ 讨论 ] [ 微博 ]

  • 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ 微博 ]

  • 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina 在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ 微博 ]

  • 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:高尔定律(Gall's law) 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ 微博 ]

  • 2014-08-02 Sibyl是Google正在使用的分布式机器学习平台。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ 微博 ]

  • 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ 讨论 ] [ 微博 ]

  • 2014-08-02 @羊_o羊o羊爱小破厂 问:需要tornado的资料。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ 讨论 ] [ 微博 ]

  • 2014-08-02 @钱知易 问有没有机器学习和深度学习在多媒体信息检索领域的资源?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ 讨论 ] [ 微博 ]

  • 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的James Hendler (维基百科介绍 http://t.cn/RPxlN6p研究领域人工智能和Web科学,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ 微博 ]

  • 2014-08-02 [求援] @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ 讨论 ] [ 微博 ]

  • 2014-08-02 推荐一个emacs的很长长长长长长长长....的英文迷你教程,有无数小动画,非常容易懂,看得出是下了功夫的。进去看两眼您就赶紧藏转发吧,这还只是第一部。我怎么觉得这跟一口气看完某韩国连续剧一样一样的呀。http://t.cn/RPxLa51 同意它是有史以来最长的emacs教程请举手! [ 微博 ]

  • 2014-08-01 问:wechat:泡泡龙: 我想知道query意图分析(query分类)有哪些方法? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ 讨论 ] [ 微博 ]

  • 2014-08-01 @小77you 问:关于graph DB有哪些开源的东东。@昊奋 答:Graph DB有两个分支,一个来自SW,以RDF triple store起家,括Jena, Virtuoso, AllegroGraph等 。另一个分支来自NoSQL,以Property Graph作为底层数据模型,包括Neo4J,Titan等,导读http://t.cn/RPxPAnt 15个数据库 http://t.cn/RPxPAn5 [ 讨论 ] [ 微博 ]

  • 2014-08-01 讲一下Facebook新的开源Javascript类库immutable.js http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ 微博 ]

  • 2014-08-01 社会机器Social Machine是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?**的人肉搜索是他们认为最好的例子,与**学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ 微博 ]

  • 2014-08-01 @瀟灑小弟 问:有木有深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源? @panjf1987 提供答案:被推荐过最多是Richard Socher 的Deep Learning for Natural Language Processing (without Magic) 这个tutorial在NAACL 2013和ACL 2012都做过。讲稿,视频,参考文献整理如下http://t.cn/RPMSxHq [ 讨论 ] [ 微博 ]

  • 2014-07-31 知识图谱的构建离不开人的参与,众包作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ 微博 ]

  • 2014-07-31 @认知计算_Watson 推荐IBM Watson系统最新的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ 讨论 ] [ 微博 ]

  • 2014-07-30 @noavailableAccount 问:有没有KVM(kernel-based Virtual Machine)的学习资料 答:http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文;几个幻灯片与短教程;一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ 讨论 ] [ 微博 ]

  • 2014-07-30 感谢@北京-小武 推荐的云计算白皮书,已收录到大数据精华区 http://t.cn/RPfx7P7 为方便大家快速浏览,文中所有的图表已摘出来单列,更加节约略读时间 [ 微博 ]

  • 2014-07-29 @鱼片的小露宝 问:希望大数据分析和机器学习方向推荐一些书,最好是java而且比较基础容易上手的。答: Kirk Borne推荐过15本书 http://t.cn/RPcpSHG 用Java入门可以先学Weka Mahout和MLTK。这有一组入门资源 http://t.cn/RPcpSHb @朝花夕拾录 推荐过的CMU机器学习暑期班也非常好 http://t.cn/RPcpSHq [ 讨论 ] [ 微博 ]

  • 2014-07-29 问:@北冥渔翁 我要找windows服务器维护管理进阶的资料 答:服务器管理进阶通常是由新需求触发的,例如系统升级,效率优化,安全补丁,软件安装。这里 http://t.cn/RPcOYXo 罗列了一本免费书,几个博客与论坛, 希望微软专家(尤其是MVP)补充指正 @肥九叔 @曾经胖哥 @月光博客 @Edi_Wang [ 讨论 ] [ 微博 ]

  • 2014-07-29 @norvid 问:求数据仓库的元数据的相关综述资料。 答:数据仓库自2000年起逐渐从学术研究转到工业应用。热点是大数据挖掘,但元数据仍是数据链接聚合之关键。http://t.cn/RPV4wmy 罗列几个综述。推荐看uzh的幻灯片和Gartner分析报告。搜索词:logical data warehouse, Ontology-based Data Warehouse [ 讨论 ] [ 微博 ]

  • 2014-07-29 @娄琦天天刷围脖: 请问有没有Python集成Fortran项目的实例?答:历史上有F2Py作为Python的Fortran接口,现在已经集成到Numpy里了。numpy底层很多计算都是Fortran的,所以大量Python项目已经在间接用Fortran。具体的语法例子看这里 http://t.cn/RPVqpLo [ 讨论 ] [ 微博 ]

  • 2014-07-29 @心心xi 问:可否推荐一些关于recommendation的相关论文呢? 答:有三组不错的资源 @小飞鱼_露 推荐了20多篇论文 http://t.cn/RPcWrNz 其中有@唐杰THU 的工作。@清风运文 列举过推荐系统的19个开源工具 http://t.cn/RPcWrN7 @朝花夕拾录 刚分享了大数据上的推荐系统 http://t.cn/RPcWrNP [ 讨论 ] [ 微博 ]

  • 2014-07-29 @winsty 提到了梯度提升决策树Gradient Boost Decision Tree (GBDT) 这是一种模型组合的方法,利用简单模型的组合克服过拟合等问题。目前在推荐/Learn to Rank中广泛使用,如Yandex,也被称为MART/GBRT。这里列出几篇核心论文和R/Python/C++多种实现源码 http://t.cn/RPVUDs7 [ 微博 ]

  • 2014-07-29 @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ 讨论 ] [ 微博 ]

    • @LDL_BIT 增补:最近就这个问题设计了个小实验,今天也看到一篇讲多项式学习问题的论文,见我的博客http://t.cn/RPSAXV0 注:文章是ICML 2014 “Learning Polynomials with Neural Networks” http://t.cn/RPSnyZi [ 微博 ]
  • 2014-07-27 [续http://t.cn/RP5WYnt ] @小飞鱼_露 问:能否推荐一些关于 Learning to Rank 的相关论文,教程,应用呢?答2:前次推荐了25篇文章,主要是相关算法。@刘知远THU 和 @老师木 进一步推荐了 @刘铁岩 和 @李航博士 的综述和专著,更适合入门 http://t.cn/RP5WYn5 全部LTR资源 http://t.cn/RP5WYnc [ 讨论 ] [ 微博 ]

  • 2014-07-27 @小飞鱼露 问:能否推荐一些关于 Learning to Rank 的相关论文,教程,以及一些应用呢?答:我们咨询了相关专家 @梁斌penny 并得到@白硕SH @熊辰炎 @ICT朱亚东 等精彩讨论,总结在这里 http://t.cn/RP50MiI 根据他们的推荐,我们收集了25篇重要论文 http://t.cn/RP50Mif 可根据专家推荐选读 [ 讨论 ] [ 微博 ]

  • 2014-07-26 @姚鹏鹏YPP 问:能不能推荐深度学习或者机器学习在图像检索中的应用的论文?答:最权威的索引可以说是最近CVPR 2014上的深度学习在计算机视觉上的教程,主讲人全是本领域的大拿,一共13个讲稿,基础/进阶/实践全有,顺着每个后面附的文献列表可以把领域内重要论文一网打尽了。http://t.cn/RPqzoPJ 这几个资料更具体,有百度和Facebook的图像搜索方法 http://t.cn/RPqUBaK [ 讨论 ] [ 微博 ]

  • 2014-07-26 David MacKay的Information Theory, Inference, and Learning Algorithms 以统计为纲,把经典信息论,机器学习,神经网络等领域统一阐述,深得好评,在微博上先后有@黄厝海滨 @陈利人 @算文解字 @陈晓鸣在硅谷 等专家推荐。这里总结该书的相关资料,讲稿,视频和PDF电子版都有 http://t.cn/RPqyzr0 [ 微博 ]

  • 2014-07-25 @shirleyChou1 问:请问有没有Python + machine learning 从入门到进阶的完整link list呢? 答: @52nlp 有个很好的总结,推荐去看 http://t.cn/RPboC0p 他提到的17个工具的开源代码按火爆程度列表在这里 http://t.cn/RPG2U0H。还有更多的机器学习包看这里 http://t.cn/RPGqlmf 入选的都是几百上千星的 [ 讨论 ] [ 微博 ]

  • 2014-07-25 [资源合集] 欧洲python大会(7月21到 27号)50多个视频与十多个幻灯片。最火话题:Python能从Haskell学到什么 http://t.cn/RPbBxX5 其他一些热点PPT:Pypy编译器进展, 图数据库,消息传递与并发,用pymc3和Scikit-learn做机器学习,OpenStack云计算平台。更多好东西见 http://t.cn/RPbBxXq [ 微博 ]

  • 2014-07-25 [资源合集] http://t.cn/RPb1ewQ Github上13个最热门的NoSQL数据库排名。第一的是键值数据库Redis,近万颗星。第二,三是RethinkDB和MongoDB,两大竞争的文档数据库。第四是pouchdb,2800星,一个Javascript的可以跑在浏览器的数据库。图数据库Titan第五。其他有flockdb couchdb riak ravendb orientdb等 [ 微博 ]

  • 2014-07-25 @AngelZywei 问:推荐一下图像模糊检测的一些开源项目和资料吧。答:图像失焦和清晰度检测,有梯度检测,边缘检测等原理,具体的实现有拉普拉斯变换,Hough变换,小波变换等方法。这一组推荐资源13个,分为5篇经典论文,5个开源项目 (bash, python,C,C++, Clojure)和3篇问答 http://t.cn/RPGfOkO [ 讨论 ] [ 微博 ]

  • 2014-07-24 前几天@52cs 推荐@52nlp 在52nlp.cn 上列一批计算机高质量书籍,可惜很多链接都失效了。当时承诺帮大家找到可下载的版本,今天终于有空先找了第一批“特别推荐系列”里的7篇,提供了免登录下载。原作者有@52nlp @朱鉴 @陈涛sean @rickjin 非常非常感谢他们!http://t.cn/RPbU1Lu (更多待续) [ 微博 ]

  • 2014-07-24 @国产哈利波特007 问:能帮我找下数据挖掘方面的算法吗?答:推荐从这几本免费的数据挖掘与数据分析书开始。其中A Programmer’s Guide to Data Mining简明扼要,适合入门。Data Mining Algorithms In R解释了基本概念。Mining of Massive Datasets 可以进阶阅读。 http://t.cn/RP4Wmhu [ 讨论 ] [ 微博 ]

  • 2014-07-24 去年2月Nature指出Google在流感预测上出现重大错误:过高估计发病几率。今年3月Science讲了两个原因:抛弃传统方法过度依赖大数据,算法难以有效过滤网络舆情。前段时间纽约时报也讨论了大数据的局限。这里我们汇总了6篇相关文章,从正反两方面提供参考 http://t.cn/RP4CnFU 感谢 @lidingpku 提供 [ 微博 ]

  • 2014-07-23 @tang_Kaka_back 问:有没有时间序列分析的相关资料?答:这里收集了一组时间序列分析入门资源。分为三组:第一组是三本电子书,都是经典,其中两本免费 http://t.cn/RPUHGWb 第二组是9个教程,来自博客和中外大学课件 http://t.cn/RPUHGWL 第三组是维基百科上的核心概念介绍 http://t.cn/RPUHGW2 [ 讨论 ] [ 微博 ]

    • 三本推荐教材是 《时间序列分析及应用(R语言) 》 《A little Book of R for Time Series》 《Forecasting: principles and practice》 后两本书是免费的,FPP是讲理论的,R的那本是实战。三本书基本上把时间序列分析基本的方方面面都覆盖到了 [ 微博 ]
    • 第二组教程里有两个PPT http://t.cn/RPUnWmz http://t.cn/RPUnWmh 一个讲理论一个讲实战。在几篇博客里,特别推荐@敲代码的张洋 的 “时间序列分析基础” http://t.cn/RPUnWmP 基本概念,ARIMA/Ar/MA模型,R的实现都有,非常适合入门 [ 微博 ]
    • 第三组基本概念,也推荐看这个博客上的图 http://t.cn/RPUmVGK , 简明扼要,要搞懂什么概念一目了然。基础概念有时域分析,频域分析,ARIMA模型和各种变种。英文维基介绍的很清楚 [ 微博 ]
    • 续时间序列分析入门24个资源 http://t.cn/RPUuHJU 再推荐更多进阶内容。Memect大数据精华区有很多Hadoop上的时间序列分析文章 http://t.cn/RPUmu9T Python精华区有统计实战和StatsModels等包的介绍 http://t.cn/RPUmu9H 最后推荐一个统计专家的专辑,有很多有趣的统计文章 http://t.cn/RPUmu9Q [完] [ 微博 ]
  • 2014-07-23 http://t.cn/RPUxwc6 万维网科学暑期学校的PPT上线了 Web Science Summer School 2014: Age of Data 院士级巨头Wendy Hall (ACM前主席),Nigel Shadbolt (英国政府公开数据领导者),Jim Hendler(语义网之父)等主讲。内容涉及链接数据,开放数据,数据分析等。共41个资源 感谢@lidingpku 推荐 [ 微博 ]

  • 2014-07-22 @呯呀么呯 问:识别交通标志,怎么确定图片里有交通标志,具体在哪里?答:这个应该算目标识别和物体识别,CV的经典教程都有object recognition的内容可以参考。具体到交通标志识别,Github上有些开源代码 Matlab C++ Java的都有http://t.cn/RPLR99i 计算机视觉@DeepGlint赵勇 是专家,推荐关注 [ 讨论 ] [ 微博 ] ** @朝花夕拾录: 正好发现一篇学术界的综述文,An overview of traffic sign detection methods http://t.cn/RPLdXUw [ 微博 ]

  • 2014-07-22 问:@北冥渔翁:日常维护管理的有吗?dba方面? 答:oracle dba在学习官方文档外,可以跟踪大神的博客,篇幅都不长且能很快掌握很多有用的实战经验。此外面试问题也反映了dba的技术要点。合集传送门 http://t.cn/RPLRu9v 推荐资深dba微博 @yangtingkun 有很多好文摘 http://t.cn/RPLRu9P [ 讨论 ] [ 微博 ] ** @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家,特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ 微博 ]

  • 2014-07-21 @AixinSG 昨天推荐了CommonCrawl .这是Google Adsense之父Gil Elbaz离开Google后,为了实现开放数据的理想创立的(他另一个项目是Factual)项目理想是解决大搜索引擎对数据的垄断,鼓励中小企业利用Web数据创业.最新的数据有50亿页面,541T.这里搜集CC相关资源 http://t.cn/RP2Hwxp 待续 [ 微博 ]

    • 续1 这么大的数据显然没法下载处理 好在AWS提供了存储 http://t.cn/RP2Hn6t 可以直接跑Elastic MapReduce http://t.cn/RP2Hn6c 这里有示范代码 [ 微博 ]
    • http://t.cn/RP2D8XL 续2 CommonCrawl提供了MapReduce的示范教程 http://t.cn/RP2QGbz 更实战的例子来自Web Data Commons项目 http://t.cn/RP2QGbZ 综合使用了S3 EC2 SQS ElasticMapReduce 他们利用了100个EC2实例.在另一个例子里Lucky Oyster的工程师只用100美元,14个小时完成了4亿实体的索引 [ 微博 ]
    • 续3 为了从这么大的数据里找到有用的信息,CC也提供了搜索引擎.如果想自己构造搜索引擎,它的数据格式也是公开的 http://t.cn/RP2RC0c [ 微博 ]
    • 续4处理500T处理即使在AWS上也太贵,太耗时了.好在matpalm提供了过滤和部分利用CC数据集的方法.它也集成了一些简单的文本处理和自然语言理解: boilerpipe, tika和stanford parser http://t.cn/RP2Ebmu [ 微博 ]
    • 续5 CC更强大的应用在于提取结构化数据.正如Wikipedia培育了DBPedia和Freebase,CC在两个方向培养了更大的潜在市场:RDFa, Microdata等网页内嵌语义数据(至少30%的网页已经有这种数据),和网页链接结构图.Web Data Commons只是开始,工业应用前途无量 http://t.cn/RP2EXuC [ 微博 ]
    • 续6,最后提一下CC项目的关键人物Gil Elbaz,Nova Spivack等,他们都是用结构化数据改造现有的Web的传道士和战士,为此奋斗十年以上了.在学术界,这就是语义网的研究,如Jim Hendler也在CC顾问委员会里.http://t.cn/RP2n7vp CC的出现,可以说为语义网走向现实又提供了一个有力的武器 [ 微博 ]
  • 2014-07-21 18个最热深度学习Github项目逐一介绍(合集) http://t.cn/RPLwc9n 有 convnetjs, DeepLearnToolbox, Yusuke Sugomori's code, Lisa Lab's DeepLearningTutorials, deepnet, rbm-mnist 等。主流深度学习模型如DBN RBM CNN等都有,实现语言包括Python, C/C++, Matlab, Javascript, Java, Scala [ 微博 ]

    • 1)DeepLearningBenchmarks http://t.cn/RP2ZJi9 29星, 比较了Theano和其他几个实现的性能:eblearn, python numpy, torch5, torch 7。 不过列表有些老,都是2011年前的,新的项目没有加进去。 [ 微博 ]
    • 2) n42 ,21星,一个nodejs的实现,可以直接npm install n42。实现了4个算法:Newral Network,Logistics Regressio,Stacked denoised Autoencodern,Deep Belief Nets。代码不长,适合学习。 [ 微博 ]
    • 3)宗师Hinton的代码,23星,是Matlab的。实现了autoencoder,Restricted Boltzmann Machine(RBM) 。这个应用在图像领域。宗师出品,重要性不用解释。 [ 微博 ]
    • 4)UFLDL-tutorial ,作者Dan Luu,94星 ,这是斯坦福深度学习公开课和 Andrew Ng's UFLDL(无监督特征学习和深度学习)教程的所有练习的解答。代码是Matlab的,作者声称对Octave兼容,所以理论上甚至可以从python调用。非常适合入门。 [ 微博 ]
    • 5)kaggle-blackbox ,作者Zając,53星 ,这是2013年Kaggle无监督学习竞赛的一个实现 。它实现了一个随机森林算法和一个稀疏滤波算法。语言是Matlab,也可以用Octave跑。文档和说明参见 http://t.cn/RP2AUW6 [ 微博 ]
    • 6) stanford_dl_ex http://t.cn/RP2A0tn 这是另一个斯坦福深度学习公开课的习题解答,24星,作者Andrew Maas 和Sameep Tandon。语言是Matlab。同样适合入门学习。 [ 微博 ]
    • 7) Yusuke Sugomori(巣籠悠輔)的深度学习实现 http://t.cn/RP2As94 。这个有近600星,提供了5种语言的实现:Python, C/C++, Java, Scala,囊括了各种主流深度学习算法:DBN, CDBN,RBM, CRBM,dA, SdA, LR等。 [ 微博 ]
    • 8) convnetjs http://t.cn/RP22k0g 这个是目前最火的项目,有1300+颗星,实现了卷积神经网络,可以用来做分类,回归,强化学习等。可以直接npm install convnetjs。convnetjs上有很多很酷的可视化演示 [ 微博 ]
    • 9) libdeep 这是个C的实现,目前54星。在Linux上可以安装到系统库,然后就可以在其他项目里调用了。如果追求性能,这是个好选择。 [ 微博 ]
    • 10)rbm-mnist http://t.cn/RP2ySp8 这个是hinton matlab代码( http://t.cn/RP2ySpR )的C++改写,189星。它还实现了Rasmussen的共轭梯度Conjugate Gradient算法。 [ 微博 ]
    • 11) deepnet ,这个是GPU实现的深度学习算法,前向网络,RBM,DBN,Autoencoder, DBM, CNN包括了,底层用的CUDA 。目前282星。实现语言是Python,做到了简洁性与计算性能的良好结合,特别推荐。 [ 微博 ]
    • 12) neural-networks-and-deep-learning,243星 ,这是作者的书Neural Networks and Deep Learning的配套代码,语言是Python。这本书是免费的,不过还没有写完,可以预览前几章 http://t.cn/RP2Ur99 [ 微博 ]
    • 13)Lisa Lab的DeepLearningTutorials,也就是deeplearning.net上的教程和源代码。Python实现,是基于pylearn2和Theano的。目前500多星,非常火爆。他们的wiki上很不错的资源列表,如论文和数据集 http://t.cn/RP24oCB [ 微博 ]
    • 14)OpenDL http://t.cn/RP24mYU 这是个很新的实现, 是基于spark的。语言是Java。除了spark还用到了Mallet机器学习包和JBlas线性代数包。更多spark参考请看大数据精华区的专题 http://t.cn/RP24mYb 。 [ 微博 ]
    • 15)deeplearning-class-2011 这个也是 UFLDF课程的一个实现,31星,语言是Octave,Matlab和Python (NumPy) [ 微博 ]
    • 16) @丕子 的PG_DEEP 这是一个C++实现的Demo,目前有20星。代码相对简单,非常适合入门学习。 [ 微博 ]
    • 17) medal=Matlab Environment for Deep Architecture Learning,37星,是一个Matlab的示范库,也实现了RBM,DBN, CRNM等主流的模型。 [ 微博 ]
    • 18)DeepLearnToolbox ,Matlab实现中最热门的库,700多星,囊括了CNN, DBN, SAE, CAE等主流模型。非常简单好用。 [完] [ 微博 ]
  • 2014-07-21 问:@apple2811 我需要Linux的资料 答:不太清楚具体需要哪一类,先推荐些通用的:1)六篇入门导读,包括Linux的基本知识,学习Linux的攻略,以及在线学习资源列表 http://t.cn/RPLyqp0 2) 六个社区网站(中英文各半),包括官方网站,流量最大的社区,以及问答论坛 http://t.cn/RPLyqpO [ 讨论 ] [ 微博 ]

  • 2014-07-21 问:@如果起居录 语义网用于GIS、RS领域 答:OGC在2000年制定GML1.0时就有RDFS版(不过后来给放弃了)。目前有W3C的Geospatial Semantic Web Community Group,几个国际工作会议,很多项目都与开放政府数据有关;GeoSPARQL, LinkedGeoData;数据库空间索引。合集传送门:http://t.cn/RPLGgIh [ 讨论 ] [ 微博 ]

  • 2014-07-21 问: @北冥渔翁 oracle、 mysql 入门进阶 答:数据库入门进阶资料包括: 参考书、在线教程、以及社区论坛的问答、例程与博客。参考书基本能上网找到电子版。先各举四个重要资源,不断更新中。1.mysql资源:注意MariaDB http://t.cn/RPLyXyb 2.oracle资源:侧重性能优化 http://t.cn/RPLyXyG [ 讨论 ] [ 微博 ] ** 2014-07-22 学习数据库, @何_登成 的微博一定要追!他最近推荐的一些MySQL的资源整理在这里 http://t.cn/RPLg6Gd [ 微博 ]

  • 2014-07-18 @小77you 提问:java 进阶的课程主要学哪些? 回答:整理了一组资源,见 http://t.cn/RPZBw3D 。讲讲大原则,关键还是看你的兴趣与职业发展取向。 1. 读书学习:改善编程风格,加强团队合作能力;系统架构与设计;后台性能优化; 2. 浪迹江湖:跟踪最新技术;通过网络交流共同进步。 [ 讨论 ] [ 微博 ]

  • 2014-07-18 问:@曲线救己的fighter 求hive 答:正好有一组经大数据专家 @ShangguanRPI 整理的Hive资源(2012至今已经有27个帖子了) http://t.cn/RPwI2lO 在这个比较贴里,作者详细比较了Hive和其他的Hadoop上的SQL工具 http://www.weibo.com/1932835417/BaukhlfIT [ 讨论 ] [ 微博 ]

  • 2014-07-18 问: @apple2811 我需要找js的资料? 答:见 http://t.cn/RPwtZB0 进阶主题包括 jquery, node.js, pattern, functional, closures, 性能优化 、可视化等。 推荐进阶阅读: 1、90页例程覆盖JS技术要点。 2、纽约大学的JS进阶课 3、原Yahoo大牛 Douglas Crockford的书,被无数人推重 [ 讨论 ] [ 微博 ]

  • 2014-07-18 @lovesherlock 问:有没有可以保存自己微博信息的软件或者代码什么的? 答:我们现在小范围开放个人微博信息的保存, 例如此前推荐的大牛骆逸的微博合集收藏 http://t.cn/RPZdL42 我们也提供单条微博的收藏,把微博变成可引用的卡片,例如 http://t.cn/RPZdL4y 纯图片 http://t.cn/RPZdL4L 图文 [ 讨论 ] [ 微博 ]

  • 2014-07-16 @跛嘞盖儿蹭马路牙子上卡秃噜皮了 问:数据具有统计分析的价值么?请问能不能结合链数据的特点和R来谈谈。简答如下:Linked Data作为数据的一种,当然也可以做统计分析。可以看作Statistical relational learning的扩展。全文 http://t.cn/RP7oQxk 推荐资源的合集 http://t.cn/RP7oQxF [ 讨论 ] [ 微博 ]

文摘

  • 2014-07-22 @龙星计划 计算机方面的经典资料可以参见这个博客。http://t.cn/Rv6rzrj 维护者@52cs [ 微博 ]

  • 2014-07-22 @AixinSG 推荐大数据综述文章 Toward Scalable Systems for Big Data Analytics: A Technology Tutorial 36页长文免费下载 http://t.cn/RPLDPNK 文章引用接近300篇文献,涵盖数据生成,获取,存储,及分析等主要技术综述 @云教授之云媒体 [ 微博 ]

  • 2014-07-21 @城市数据派-UDParty(城市规划) 【全球 55 个城市数据分享平台( Urban Observatory)】城市瞭望台( Urban Observatory)项目:全球 55 个大城市在此分享城市数据,这将是世界上第一个真正意义上的公共瞭望台。同步对比影响世界城市的重要因素,交通、人口、道路速度、开放空间、年轻人口、老年人口等。详见:http://t.cn/RPLqc8T [ 微博 ]

  • 2014-07-19 @LiLei-Berkeley Probabilistic Programming summer school 在Portland顺利结束 教学资料见 http://t.cn/RPAURgG 来自Berkeley,MIT, Stanford等大学企业的教授和研究员讲解了 BLOG, Church, Figaro, Venture 等概率程序语言。 @jxwuyi [ 微博 ]

  • 2014-07-19 @AixinSG 大牛给的信息检索方面综述文章列表,涵盖IR方向N多问题 http://t.cn/RPAL69M [ 微博 ]

  • 2014-07-18 @我爱机器学习 【Awesome Machine Learning】http://t.cn/RPZ80gD 一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness】http://t.cn/RPZ80gk 各种编程语言等都有汇总,值得收藏以备不时之需。 [ 微博 ]

  • 2014-07-17 @朝花夕拾录 [资源贴] cassendra 2.1 beta rc3新特性:1、 用户自定义数据类型(UDT):支持集合类型Set和Map,以及其上的二级索引; 2、读写速度提高超过50%;3、行数据的聚集(cluster)与缓存(cache);4、counter设计优化,提高安全和一致性;5、更好的压缩机制,用commit log绕过直接读写 http://t.cn/RPzKcaH [ 微博 ]

  • 2014-07-17 @唐杰THU 推荐密歇根的H V Jagadish、康奈尔及微软Partner Scientist JOHANNES GEHRKE, Fellow RAGHU RAMAKRISHNAN等数据库专家在Communication of ACM上关于《大数据技术挑战》,从数据获取、抽取、清洗、集成和建模几个过程阐述其中的数据不一致、不完整、动态、隐私等面临的挑战。http://t.cn/RPzk8wG [ 微博 ]

  • 2014-07-17 @hbyido 大量的专业书 数学书下载,推荐 万千合集站 一个专注于资源整理、分类和提供免费下载服务的网站 http://t.cn/RvUYeY7 http://t.cn/RvUYeY7 [ 微博 ]

  • 2014-07-16 @西瓜大丸子汤 Jim Hendler今天的视频和PPT: Semantic Web: The Inside Story 强烈推荐搞人工智能的同仁都看看 http://t.cn/RP7CLin 语义网作为符号主义走向应用的尝试,也曾获得与深度学习类似的投资与眼球。结合前两天关于AI winter的讨论,其在今天尤其有参考意义 http://t.cn/RP7CLim @王海勋haixun @Gary南京 [ 微博 ]

  • 2014-07-16 @西瓜大丸子汤 http://t.cn/RP7Q1pR 深度学习70+条学习资源。这70多条是从Memect用户过去两年的阅读列表里精选出来的,每一条都经过了人工的过滤。从入门到进阶,各大个公司的应用案例,各种软件包的介绍,实战汇报,基本都是实用内容,理论联系实际。随后我们还会特约专家加以导读和点评。[ 微博 ]

  • 2014-07-16 @52nlp "线性代数的学习及相关资源" http://t.cn/zOQBTSC , 这个里面汇集了资源,包括电子版教材, “找到一个不错的电子版,非扫描版并且是第4版:Introduction to Linear Algebra_4ED_Strang” ,昨天有同学私信说爱问的已经废了,刚才上传到百度网盘并做了私密分享,感兴趣的同学请在该文尾部找答案。 [ 微博 ]

  • 2014-07-16 @朝花夕拾录 [资源贴]续上文 http://t.cn/RP7N6AS 目前整理出了80多个大数据可视化工具:http://t.cn/RP7N6AK javascript类51个,地图类有21个 ,图表类34个,svg类15个;继续增补中,欢迎指正。 --题外话,大数据可视化也要用美女打广告。猜猜那个帅哥是哪个工具的“代言人”,期待大数据展会的“数模” [ 微博 ]

  • 2014-07-15 @朝花夕拾录 [资源帖]12个#大数据#可视化工具合集汇总,超过一半2014年新出炉。涵盖超过50个#可视化工具#(表格,地图,时间轴,动态图表,树,有向图等),大约80% #javascript#包,例如d3.js,timeline.js,Springy.js。如果说大数据分析是一场足球赛,那数据可视化就是临门一脚。 http://t.cn/RPh1qz5 [ 微博 ]

  • 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvS3im 大数据书籍推荐新增 Cloudera Impala;Apache Sqoop Cookbook;Outlier Detection for Temporal Data;Big Data Now: 2013 Edition。免费pdf推荐:Social Media Mining ,另有9本免费的数据挖掘与数据分析 http://t.cn/RPvS3in [ 微博 ]

    • @西瓜大丸子汤 9本免费的数据挖掘书之1)Mining of Massive Datasets 斯坦福三大教授Leskovec Rajaraman Ullman 联手推出的免费书,500多页,不是简单的数据挖掘,而是大数据挖掘 http://t.cn/RPv8GTa 这本书的第三章相似分析,第五章链接分析,第九章广告系统当年在我工作中很有用 更多大数据书http://t.cn/RPvS3im [ 微博 ]
    • @西瓜大丸子汤 9本免费的数据挖掘书之2)Data Jujitsu(数据柔术)如何解剖复杂数据,利用替代分析技巧,利用人工分析如Mechanical Turk。我觉的这本书最好和Bad Data一起看 http://t.cn/RPvEhRz 数据挖掘的真实效果80%在数据清理和人工,不是算法。传送门 http://t.cn/RPvEhRZ 更多大数据书http://t.cn/RPvS3im [ 微博 ]
    • @西瓜大丸子汤 9本免费的数据挖掘书之3)Data Mining Algorithms In R http://t.cn/RPPm0Bk 这是一本Wiki书,也就是维基百科上有关的条目组织形成的书。覆盖了:降维方法,常见模式挖掘, 序列数据挖掘,聚类,分类,和R的数据挖掘包导航(RWeka gausspred optimsimplex 等)更多大数据书http://t.cn/RPvS3im [ 微博 ]
    • @西瓜大丸子汤 9本免费的数据挖掘书之3.1)续上http://t.cn/RPP33gn Data Mining Algorithms In R这书原始格式是网页,不易阅读下载,特制作pdf版,266页 http://t.cn/RPP33gR 。同时推荐Yanchang Zhao的R and Data Mining,160页,都是实战例子 http://t.cn/RPP33gE 如觉得好请支持作者 http://t.cn/RPP33gm [ 微博 ]
    • 9本免费的数据挖掘书之4) Theory and Applications for Advanced Text Mining http://t.cn/RPP10t2 这是本理论书,作者大都是学术界的。主题是高级的文本挖掘,如关系提取,时间关系提取,文章总结,本体学习,实体提取等各种高大上专题。了解前沿不可不看。更多大数据书http://t.cn/RPvS3im [ 微博 ]
  • 2014-07-13 @鲍捷AI http://t.cn/RPvxGHA OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb,也即Freebase团队。被Google收购后,工具改称Google Refine。后来开源成为OpenRefine。这组资源包括了9个必读博客和教程 [ 微博 ] ** @西瓜大丸子汤: Freebase是Google知识图谱的前身。从Wikipedia到Freebase再到知识图谱,不仅有机器的数据清理,也有海量的人工数据清理任务。Google Refine在其中的作用不容低估。具体数值不详,不过来自类似系统TrueKnowledge的报告说:0.1%的手工编辑就可以覆盖10%的用户查询 http://t.cn/RPvxjIF [ 微博 ]

  • 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvoO88 Python免费书54本,都可以pdf下载。从入门到自然语言处理,科学计算,概率论,经济学,生物信息学,多媒体,密码学,计算机视觉,游戏,社交媒体分析...必有一本适合您 [ 微博 ]

  • 2014-07-12 @赵家平USC Jeff Hinton组把deep CNN(CovNets)在ImageNet上train好的模型放到网上了,试了下classification, retrieval, image2text的在线demo, amazing! http://t.cn/Rvs0Pvj 最重要的是他们的source code以及installation & documentation 也一并公布,超过Rob Fergus学生的Clarifai http://t.cn/8kL993u [ 微博 ]

  • 2014-07-12 @西瓜大丸子汤 http://t.cn/RvsoYMd @骆逸 的微博里提到很多Python干货。从过去两年的微博里选出一百多条,有适合入门的书籍和教程推荐,有机器学习,网络编程,推荐系统,各种实战总结(360, instgram),PyCon等等。http://t.cn/RvsQc5G 和机器学习有关的帖子质量也很高,不少也是和python有关的. 我当年学Python的时候就从@骆逸 的帖子里受益匪浅。大牛以前在雅虎,如今是毕肯互动的CEO [ 微博 ]

  • 2014-07-12 @西瓜大丸子汤 http://t.cn/Rvs9BBQ 语义网同仁的福利:本体映射Ontology Mapping项目汇总,一共20多个。入选的都是现在还在活跃的项目,很多都有开源代码。早年的一些项目现在不怎么维护的看这里 http://t.cn/Rvs9BBH @老淘 @潘越_ 徐涵W3China @白硕SH @顾进广 @胡安-格里斯 @昊奋 @唐杰THU @程龚_NJU @汪鹏_SEU [ 微博 ]

  • 2014-07-12 @朝花夕拾录 #Swift# 资源合集: 官方博客今日(7/11)上线,并两个相关博客。还有4个社区资源导航贴合集,包括 @SwiftLanguage 提供的中文版。最后是Swift PDF合集(包括 8个WWDC的演讲稿,两个官方iBook参考书的PDF版)http://t.cn/RvsJrLy [ 微博 ]

  • 2014-07-11 @网路冷眼 必须观看的Javascript视频!!!】GitHub网站上 http://t.cn/RvFF0AU 收录了2009年至今必须观看的Javascript视频,其作者Nicholas Zakas,Douglas Crockford...都是Javascript江湖响当当的人物,精彩不容错过! [ 微博 ]

  • 2014-07-11 @网路冷眼 Docker现在大火,http://t.cn/RvF7fxB 推出史上最全Docker中文资料集萃。真的狠赞![赞] [ 微博 ]

  • 2014-07-11 @西瓜大丸子汤 Python贝叶斯工具续 http://t.cn/RvFf2Q9 前面介绍过PyMC,Infer.net 此外@朝花夕拾录 还介绍过emcee和pystan。在实战中怎么用呢?bayesian-python这个系列收集了14篇相关文章。http://t.cn/RvFfwUy 这5篇总结了几个工具的实战例程。要节约时间就看系列第一篇总结的表,一目了然 http://t.cn/RvFfwUL [ 微博 ]

  • 2014-07-10 @西瓜大丸子汤 刚才说到python优化,举个具体的例子 Gensim的作者把word2vec(深度学习)做了几个经典优化:循环,numpy/BLAS,cython,多线程(真的可以)结果效率提高了上千倍,比Google开源出来的原始C版本还快3倍。他最近还写了个word2vec教程。无论是学习word2vec还是python优化,都不可不看 http://t.cn/Rvkt0Hk [ 微博 ]

  • 2014-07-10 @朝花夕拾录 白宫和麻省理工于今年三月举办了“大数据的个人隐私研讨会”。麻省理工校长主持,白宫大数据顾问、美国商业部部长作了主题演讲,还有一堆麻省理工和哈佛的教授研讨了关键技术,包括数据库,加密,匿名,日志分析,语义推理等。相关资源包括每个演讲的视频,以及八个可下载的PPT。http://t.cn/Rvk5BnL [ 微博 ] ** 刚刚整理出了4个大数据信息安全关键问题: *数据收集,如何签订合理的用户知情协议 *数据共享,如何保障透明度,控制使用权限,防止数据泄露 *数据使用,如何避免重新识别攻击,防止意外地侵犯个人权益 *数据监管:如何在不同的环境(国家、政府、组织、政策)中监管大数据的运营 [ 微博 ]

  • 2014-07-09 @西瓜大丸子汤 http://t.cn/RvDWJ20 23个python的机器学习包,从常见的scikit-learn, pylearn2,经典的matlab替代orange, 到最新最酷的Theano(深度学习)和torch 7 (well,其实lua,不过从ipython调用很容易),基本常用的通用python机器学习平台都有了。 [ 微博 ]

  • 2014-07-09 @西瓜大丸子汤 在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战,用Python来解释各种概率推理方法,有代码有真相。基于PyMC 包,解剖了MCMC ,大数定律,金融分析等概念与应用。Github上已经有5000颗星。更多python统计方法资源 http://t.cn/RvDJLy6 [ 微博 ]

  • 2014-07-09 @朝花夕拾录 #大数据#产业化的一个重要指标:超过20家美国商学院(例如UVA,RPI,GWU)开设了大数据和数据分析硕士课程,而且有一半学校的课程只要一年就能毕业。这个可是转型成高富帅的绝佳机会呦。http://t.cn/RvDVtXm --我是分割线-- 呵呵,还有个IIT,这可不是印度学校,是伊利诺伊理工大学。 [ 微博 ]

  • 2014-07-09 @西瓜大丸子汤 Spark Summit 2013的PPT和教程合集整理在此 http://t.cn/RvDVO9I ,一共33个。和昨天放出了60个Spark Summit 2014的PPT一起,基本涵盖了近期spark的动态与产业布局。http://t.cn/RvewMsv 和去年比,今年峰会的内容无论数量还是应用的广度与深度,都大幅增长了。例如去年没有自然语言处理,今年有两个 [ 微博 ]

  • 2014-07-08 @何_登成 分享下最近看的几篇关于分布式KV/NoSQL的论文与资料:1. aerospike http://t.cn/RveVR9I 2. facebook memcache http://t.cn/RvjMGCj 3. redis cluster http://t.cn/zRPS3Q8 4. 腾讯CKV http://t.cn/8s7PSiN 5. 淘宝Tair http://t.cn/zjkhVoF 简单点评:架构大同小异,各有特色,可相互借鉴。[ 微博 ]

  • 2014-07-08 @西瓜大丸子汤 Spark Summit 2014全部PPT合集 http://t.cn/RvewMsv Spark是新一代大数据处理平台,基于内存的集群计算使它比MapReduce快一百倍,非常适合迭代计算和并行机器学习。合集包括了全部60个演讲的PPT(除了一个链接失效)预览和下载。AMP Lab, Databricks, Cloudera, MapR, Amazon等重量级厂家一网打尽 [ 微博 ]

  • 2014-07-07 @西瓜大丸子汤 继续推荐几个python NLP的资源。http://t.cn/RvgckyQ NLTK book是入门必读。 http://t.cn/RvgckyY @陈涛sean 做了中文翻译《用Python进行自然语言处理》可免费下载。http://t.cn/RvgckyH Jimmy Lin(前马里兰教授)有书和博客讲并行NLP http://t.cn/RvgckyT 基于Hadoop 和MR [ 微博 ]

  • 2014-07-07 @ansj 500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://t.cn/Rvgy9sg 密码: 3a1q http://t.cn/Rvgy9oC [ 微博 ]

  • 2014-07-06 @西瓜大丸子汤 http://t.cn/RvdhLRA Text Processing in Python 一本讲python文本处理的小书,涵盖了基本字符串,正则表达式,状态机,和互联网文本处理的基本点。印刷版在亚马逊上卖41刀,文字电子版免费下载 [ 微博 ]

  • 2014-07-05 @王威廉 鉴于大家对Wasserman的统计笔记反响不错,我就再推荐一本他的经典统计入门教材All of Statistics: A Concise Course in Statistical Inference http://t.cn/RvrzVBw pdf: http://t.cn/RvrzVBA 这本书获得过国际贝叶斯分析协会的DeGroot奖。[ 微博 ]

  • 2014-07-04 @西瓜大丸子汤 把最近比较重要的关于Watson的资料分了类 十多个pdf http://t.cn/Rv1BOxx IBM自己的介绍 http://t.cn/Rv1BOxX 媒体报导 http://t.cn/Rv1BOx6 Watson在卫生领域的应用 http://t.cn/Rv1BOxJ 音频视频 http://t.cn/Rv1BOxi 其他应用 http://t.cn/Rv1BOxa [ 微博 ]

  • 2014-07-04 @朝花夕拾录 七月三日新鲜出炉 #大数据#资源帖。。。24个知名掌门级别(CxO)大数据专家及其推特账号。有来自于大企业的(例如Google, KDnuggets, TeraData,IBM,和Ford ),但更多的来自创新企业。咱不指望他们都会编Hadoop程序,但他们在业内的影响力那是刚刚嘀--全是推特万人大V。 http://t.cn/RvBJqDr [ 微博 ]

  • 2014-07-03 @西瓜大丸子汤 http://t.cn/Rv3gsW2 今天的一大新闻是IBM的BlueMix:基于Watson自然语言问答系统的云服务。以前的工作也和问题有关,这里先放几篇读过的Watson的文章和slides。AAAI Magzine 2010的文章有点老,不过作为提纲还是推荐一读。IBM Journal 2012专辑选了3篇文章,在语言解析与语义数据的应用 [ 微博 ]

  • 2014-06-24 @西瓜大丸子汤 http://t.cn/RvYTJ3r 《世界杯的大数据和小数据》这组专题汇集了2010和2014年世界杯的数据。2010年BBC利用语义数据做了动态新闻发布,降低记者写作和BBC的内容发布成本。OpenLink今天发布了2014世界杯数据的RDF版,包括各队,球员和分组的可查询数据。还有football.db历年的数据,和World Cup in JSON [ 微博 ]

  • 2014-06-24 @ShangguanRPI 作为看到整篇整篇java mapreduce代码就想吐的scala脑残粉,肯定不能放过scalding。放出平时积累的一点scalding的学习资料,http://t.cn/RvYmfSX。

  • 2014-06-21 @朝花夕拾录[资源帖]十几个图像处理中常用的python包。NumPy和SciPy必装,图像处理:PIL/PILLOW入门,SimpleCV进阶,OpenCV专业。还有Mahotas ,ilastik,MedPy多用于生物医学多维图像处理。辅助工具:scikit-learn机器学习,sh5py数值数据存储(numpy数组),pprocess并发处理。http://t.cn/RvWmogb [ 微博 ]

  • 2014-06-21 @朝花夕拾录 [资源帖] pypy3.2.1(Fulcrum,支点)于6月20日发布。http://t.cn/RvlC1JG 是第一个pypy3稳定版,支持python3.2.5,改进了unicode,JIT,GC。 参考:cpython, jython(java), ironpython (.net). 讨论:还不支持numpy,ctypes(但有numpypy);windows 64bit还不支持;有人测出了7倍加速(一般4~5倍)。[ 微博 ]

  • 2014-06-20 @朝花夕拾录 五篇python贝叶斯入门短文,以及三个常用工具: emcee , pymc, pystan, http://t.cn/RvOj4nM 顺路说说统计学两大门派: 频率派(Frequentists)和 贝叶斯派(Bayesians) *Frequentists的长远目标是只有5%的时间犯错误 *Bayesians隐约期待马,瞥见一头驴,坚信(95%的可能性)他看到了一头骡子 [ 微博 ]

  • 2014-06-20 @ShangguanRPI Pivotal是一家新兴的大数据和企业PaaS解决方案提供商,由EMC、Vmware和GE在2013年合资成立,将自家的大数据技术重新架构在Hadoop平台上。这个专题资源汇总了20多篇Pivotal产品的介绍和新闻,如MPP SQL on Hadoop,在Docker上部署Hadoop,如何用PivotalR做大数据分析等 http://t.cn/RvOBEIF。[ 微博 ]

  • 2014-06-19 @朝花夕拾录 #大数据专题# 12个与#2014世界杯#相关的在线资源:(1)总结如何预测冠军得主;(2)大数据应用例程(bing, sas, rapidminner); (3)免费在线数据库,可下载(football.io, json api)。 http://t.cn/Rv0OOd2 [ 微博 ]

  • 2013-09-20 @developerWorks 免费电子书《面向程序员的数据挖掘实战指南》,侧重实例,以 Python 语言讲解。目前已完成6章,仍在更新中,并且提供 PDF 下载。http://t.cn/zWQEQH8 作者:Ron Zacharski cc @ResysChina [ 微博 ]

  • 2013-01-28 @陈利人 【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ;线性回归,偏差、方差权衡 http://t.cn/Sxppf2 ;模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ;线性判别分析, 主成分分析 http://t.cn/SAeY2U ;强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ 微博 ]

声明

2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ]

2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ]
  • 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ 微博 ]

  • 2014-07-31 这样认领问题:去Github Issue列表下面 http://t.cn/RPI5jaZ 找一个感兴趣的问题,回复你想分享的资源链接,也可附简单评语。请留下你的微博帐号(或其他联系方式),好东西传送门会整理后贴出你的答案并注明贡献者是你 [ 微博 ]

  • 2014-07-30 传送门也有微信了,去扫描吧。或者按名字直接加“好东西传送门”。微信会更多承载每日精华整理的功能。如果错过了微博上的好东西,微信上还会看到。转发一下,让更多人看到最精彩的技术好东西! [ 微博 ]

  • 2014-07-30 http://t.cn/RPfAgNg 好东西传送门所有问答和推荐资源合集现在都放在Github上了!每个问题都有自己的讨论页,可讨论增补。目前还有十多条未完成问题,欢迎各位专家帮忙认领回答!8月5日前转发最多的两条答案将获赠 @TechCrunch** 国际创新北京峰会双日VIP票,本来3200一张哦! [ 微博 ]

  • 2014-07-28 回复@silverhawk_ny:轻问答就是相对知乎这样的“重”问答工具而言,利用机器生成大量的知识卡片,问答时回答问题的人只要利用自己的知识,快速组织卡片。一般这个过程不需要写长文,几分钟就可以完成,所以叫“轻”//@silverhawk_ny:轻问答是什么意思? [ 微博 ]

  • 2014-07-28 《好东西传送门到底是什么?》 很多人问这个帐号到底是什么?答:它是一个网上资料的人肉搜索引擎。它集成了一群微博上的好人,以最简练的方式,帮大家找到最精华的资源。达到这个目的手段有三:知识卡片,人肉知识桥梁,轻问答。这是不是你想要的“好东西传送门”?欢迎讨论!http://t.cn/RPtMEmu [ 微博 ]