自从用 Scrapy 抓到了淘宝数据,就想着结合 Flask 写个搜索服务,可以聚合搜索淘宝、京东等电商的商品。说干就干,几天就写了一个 Demo,见 taobaobao。数据库使用 MongoDB,这期间遇到一个 mapReduce 的小坑。记录之~ Map-ReduceMap-Reduce 是一 ...
阅读全文 »

昨天,看 OSChina 新闻,瞄到了 Scrapy 爬虫框架。由于之前就听说过大名,自己又空闲,因此决定尝试一下。框架的优势就是使用方便,不用自己处理 request,HTTP header 等细节。代码量较使用 urllib等库的爬虫又少了不少。经过今天的试验,感觉挺好,因此决定尝试爬淘宝商品信 ...
阅读全文 »

一直以来,Red Hat 系的许多教程,都会建议你关闭 SELinux。确实,启用 SELinux 可能会造成许多莫名其妙的错误。但在实际生产环境,甚至是用户工作站,Red Hat 都建议将 SELinux 设为 enforcing 模式,因为它在关键时候可以成为你系统安全的最后一道防线。 程序是不 ...
阅读全文 »

rpm 的自动依赖是非常有用的特性,但在打包某些软件时,常常会扫描出错误的依赖(如,保存在非标准目录的私有库)。如果你希望精确控制依赖,可以使用 rpm 4.9 加入的 filter 特性。 此功能仅在以下情况使用: rpm 为 noarch 包; rpm 为指定架构的包,但二进制文件不在 $PA ...
阅读全文 »

本博客的开篇,标题借用 Marguerite.su 女王的 《RPM specfile 中 $1 值的研究》日志以表敬仰。 RPM 工作流程这几天翻译 How to create an RPM package,发现 RPM Spec 不像表面上看着那么简单。下面简述 RPM 工作流程。 安装流程: ...
阅读全文 »