Scrapy 学习笔记及简单使用

Scrapy 是纯 Python 实现的爬虫框架(scraping and crawling framework),可以非常轻松地提取网页结构信息。最初设计时 Scrapy 仅仅作为网页抓取工具,但因其功能强大,配置简单,逐渐的被扩大使用范围,也经常被用于以下方面: 数据挖掘 Data Mining 信息处理 information processing 历史信息存储 historical archival 检测及自动化测试 monitoring and automated testing 因为网上的教程已经非常详细了,这里就重点 Read more ...

2017-04-23 scrapy , python , crawler , spider , 学习笔记

使用 pyenv 管理 Python 版本

记录一下使用过程,留备以后使用。 pyenv 是 Python 版本管理工具。 pyenv 可以改变全局的 Python 版本,在系统中安装多个版本的 Python, 设置目录级别的 Python 版本,还能创建和管理 virtual python environments 。所有的设置都是用户级别的操作,不需要 sudo 命令。 pyenv 的一个典型使用场景就是,比如一个老项目需要使用 Python 2.x ,而另一个新项目需要 Python 3.x 。而 virtualenv 主要是用来管理相同版本 Python 不同项目的包的依赖不同的问题, Read more ...

2017-04-22 python , pyenv , 经验总结 , dev

Redis 常用命令

Redis 是典型的 KV 数据库,通常所说的 Redis 数据结构指的是 Value 的数据结构,常用的数据结构有 String, Hash, List, Set, Sorted Set. 前三种类型不用多讲,几乎每种语言都存在,后两种 set 是单纯的集合, Sorted Set 是有序集合,在集合内可以根据 score 进行排序。Redis 的命令不区分大小写,但通常情况下使用大写以示区分。 几个常用网址: https://redis.io/commands https://redis.io/documentation 中文命令 Read more ...


Redis 介绍

Redis (Remote Dictionary Server) 是由 Salvatore Sanfilippo(antirez) 开发的开源数据库,基于内存的 Key-Value 类型的 NoSQL 。目前在 DB Engines Ranking K-V 数据库中排行第一 1。 Redis 是 REmote DIctionary Server 远程字典服务的缩写,他以字典结构存储数据,并允许其他应用通过 TCP 协议来读写字典中的内容。 Redis 支持很多的特性: 所有数据存放在内存中 支持数据持久化:AOF 和 RDB 两种类型 Read more ...

2017-04-20 redis , database , nosql , 学习笔记

每天学习一个命令:df 查看磁盘剩余空间

之前也介绍过 di disk information,不过系统默认不带,需要自己安装,如果遇到没有权限安装时,就可以使用 df 来查看当前机器剩余磁盘空间。 df 全称 disk filesystem,用于显示 Linux 系统磁盘利用率,通常也用来查看磁盘占用空间。 命令格式 df [OPTIONS] [FILE] 直接使用不加任何参数会显示所有当前被挂载的文件系统的可用空间。默认会以 1KB 为单位显示。 选项: -a 全部文件系统列表 -h 方便阅读方式显示 -H 等于“-h”,但是计算式,1K=1000 Read more ...

2017-04-12 linux , df , disk , 磁盘空间 , command

Celery 使用介绍

Celery 简单来说就是一个分布式[[消息队列]]。简单、灵活且可靠,能够处理大量消息,它是一个专注于实时处理的任务队列,同时也支持异步任务调度。Celery 不仅可以单机运行,也能够同时在多台机器上运行,甚至可以跨数据中心。 Celery 中比较关键的概念: worker: worker 是一个独立的进程,任务执行单元,它持续监视队列中是否有需要处理的任务; broker: broker 消息传输中间件,任务调度队列,接收生产者发出的消息,将任务存入队列,broker 负责协调客户端和 worker 的沟通。客户端向队列添加消息,bro Read more ...

2017-04-10 celery , python , queue , task , distribution

电影网站评分机制

年前的时候喉舌媒体批评豆瓣,猫眼等评分太低影响了票房,而导致 16 年的年度票房目标没有达到,广电很生气,后果很严重。可是豆瓣存在了那么多年,那么多的电影,在院线上映的,还是不上映的,从来也没有听说过 IMDB 或者 烂番茄的评分会影响到总体的票房。虽然得分的多少或多或少的会对票房有所影响,可这难道是豆瓣,或者 IMDB 或 烂番茄这样的影评网站应该承担的责任吗? 制片公司,发行商,甚至细化到导演,演员,剧本,在国内甚至可以拉上审查来负责,动不动删掉个 14 分钟,谁还愿意花了冤枉钱去大荧幕看一个不完整的片子呢?真正的影迷 大概会愿意花个机票钱去看一个完 Read more ...

2017-04-08 Movie , Douban , IMDB

每天学习一个命令:lsof 列出打开的文件

lsof 用于列出当前系统打开的文件 (list open files),在 Linux 中,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以比如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为 lsof 命令需要访问核心内存和各种文件,所以需要 root 用户执行。 简单使用 比如可以使用 lsof 来查看当前系统中 80 端口是否被占用 sudo lso Read more ...

2017-04-02 lsof , linux , file , command

WEB-INF 目录结构

WEB-INF 是 Java EE Web 程序一个特殊的目录,此目录中的资源不会被列入应用程序根目录可直接访问项。客户端不可直接访问 WEB-INF 中的资源。 根据 Servlet 2.4 specification 中的描述,这个不公开的目录虽然不能被外部访问,但是可以被 servlet 代码 getResource 或者 getResourceAsStream 等方法访问,并且可以暴露给 RequestDispatcher。 目录 WEB-INF/web.xml 中保存 web 程序配置文件,XML 格式,描述 servlet 和其他应用组件 Read more ...

2017-04-01 java-web , web , web-inf , spring , spring-mvc

如何找到一首歌的名字

“听歌识曲” 虽然听起来是一个简单的功能,却还依然发展了很多年。在无数的网站评论中看到求求某某片段中的背景音乐,其实绝大部分情况下都可以通过听歌识曲来找到,剩下的也绝大部分可以通过电视,电影的OST找到。所以这篇文章就是介绍下目前市面上我使用过比较好用的一些听歌识曲的应用,这些应用解决了我95%以上,找到喜欢的背景音乐的需求。 授人以鱼不如授人以渔 在电视、综艺、或者大街上听到一首喜欢的背景音乐却不知道歌名的时候,我下意识的会拿出手机来打开网易云音乐,当然这个能够解决一大半的问题,因为经过多年的使用,其实网易的识别还是有些准确的,至少对于绝大 Read more ...

2017-03-24 music , collection , bgm , song

最近文章

  • 在 K3s 搭建的 Kubernetes 集群中安装 Longhorn 存储解决方案 前两天我使用 k3s 搭建了一个实验性质的 Kubernetes 集群,k3s 默认的存储
  • Claw Cloud Run 提供永久免费的服务器 Claw Cloud Run 是 Claw Cloud 旗下的,类似 Vercel,Netlify 的在线开发和部署平台,可以部署非常多 SaaS 程序,包括 [[AList]],[[Appsmith]],[[Bytebase]],[[ChatGPT-Next-Web]], frp,[[Dify]] 等等非常多的服务。
  • Lenny's Newsletter 重磅福利:200 美元订阅换取 15000 美元 AI 工具包 昨天,科技圈被一则消息刷屏:Lenny’s Newsletter 推出了一项令人难以置信的优惠 - 只需支付 200 美元的年度订阅费,用户就能获得包括 Cursor Pro、V0、Bolt、Lovable、Notion Pro、Superhuman 和 Perplexity Pro 在内的多款顶级 AI 工具,总价值接近 15000 美元。这一举措迅速在互联网圈引发热议,许多人惊叹于这个”不可思议的交易”。
  • Google Agent2Agent 协议 现如今,AI Agent 已经能够自主处理非常多重复和复杂的任务,并且越来越多的企业也正在构建和部署 AI Agent。就在刚刚过去的 Google Cloud Next 2025 大会上 Google 宣布了全新的 Agent2Agent (A2A)协议。这是一个开放的 AI Agent 协议,目的是为了建立 AI Agent 框架之间的联系,实现安全高效的协作。
  • HostHatch 私有网络配置记录 我一直有使用 HostHatch 的 VPS,这也是我人生中购买的第一台新加坡的服务器,HostHatch 的服务一直比较稳定,可惜的是到国内的网络不太行,延迟比较高。但好在 2 核 8G 内存,40 G 存储,两年只要 68 美元,所以也就又续费了。