| name | arxiv-daily-paper-reader |
| description | Comprehensive arXiv paper search and retrieval tool with keyword search, category filtering, date range filtering, and daily paper fetching capabilities for academic research tracking without keywords |
| dependencies | feedparser>=6.0.10 |
arXiv Daily Paper Reader Skill
概述
这是一个功能强大的arXiv论文搜索和获取工具,支持关键字搜索、分类过滤、日期范围过滤以及每日论文获取。既可以获取昨天发布的最新论文,也可以搜索arXiv数据库中的任何历史论文。非常适合研究人员、学者和学生进行学术研究和论文发现。
核心功能
- 🔍 强大搜索功能: 支持关键字、短语、高级arXiv语法的全文搜索
- 📂 分类过滤: 按85+个arXiv分类精确筛选(cs.AI、cs.LG、cs.CV等)
- 📅 日期范围过滤: 支持相对日期(最近30天)和绝对日期范围
- 📊 每日论文获取: 自动获取昨天发布的arXiv论文(无数量限制)
- 🎯 智能建议: 根据搜索结果提供优化建议和冲突检测
- 📝 多种输出格式: Markdown报告、JSON数据、控制台预览
- 🔗 完整链接: 提供论文原文和PDF的直接链接
- ⚡ 智能限速: 遵守arXiv API限制,自动重试和错误处理
何时使用
当您需要以下情况时使用此Skill:
搜索场景
- 文献搜索: 按关键字搜索特定研究主题的相关论文
- 精准检索: 使用高级语法在标题、摘要中精确查找
- 领域筛选: 在特定学科分类中搜索论文
- 时间定位: 搜索特定时间范围内的研究进展
- 趋势分析: 获取某个领域在特定时期的发展动态
研究场景
- 文献调研: 快速了解特定领域最新研究进展
- 论文追踪: 定期获取某个领域的最新论文
- 学术报告: 为学术会议或研究组生成最新论文综述
- 研究灵感: 通过浏览最新论文寻找研究灵感
具体任务示例
- "搜索机器学习相关的最新论文"
- "查找计算机视觉领域关于GAN的论文"
- "获取2023年AI领域的重要研究"
- "搜索注意力机制在transformer中的应用"
- "给我获取cs.AI领域的最新论文报告"
- "生成cs.PL和cs.SE的最新论文摘要"
- "为我的研究组准备本周的论文报告"
安装和设置
使用 uv (推荐)
# 克隆或下载项目
git clone <repository-url>
cd arxiv-daily
# 安装依赖
uv sync
# 运行命令
uv run python skill.py --help
# 或者使用安装的脚本
uv run arxiv-skill --help
使用 pip
# 安装依赖
pip install feedparser>=6.0.10 requests>=2.31.0
# 运行脚本
python skill.py --help
uv 优势
- ⚡ 更快的速度: uv 比 pip 快 10-100倍
- 🔄 可靠的缓存: 智能依赖缓存和管理
- 📦 隔离环境: 自动创建和管理虚拟环境
- 🎯 简单易用: 一条命令解决所有依赖问题
支持的arXiv分类
默认分类
- cs.OS: 操作系统 (Operating Systems)
- cs.PL: 编程语言 (Programming Languages)
- cs.SE: 软件工程 (Software Engineering)
- cs.AI: 人工智能 (Artificial Intelligence)
其他可用分类
- cs.LG: 机器学习 (Machine Learning)
- cs.CV: 计算机视觉 (Computer Vision)
- cs.CL: 计算语言学 (Computation and Language)
- cs.DB: 数据库 (Databases)
- cs.DC: 分布式、并行和集群计算
- 以及更多...
使用方法
基本使用
请使用arXiv Daily Reader技能获取最新的cs.AI论文并生成报告
自定义参数
使用arXiv Daily Reader获取以下分类的论文:
- 分类: cs.AI, cs.LG, cs.CV
- 每个分类论文数: 5
- 输出格式: markdown报告 + JSON数据
生成报告示例
我需要一个关于机器学习和人工智能最新进展的论文报告,请使用arXiv Daily Reader技能
命令行使用
使用 uv 运行 (推荐)
# 基本用法 - 获取昨天的论文(默认分类)
uv run python skill.py fetch
# 搜索论文(简化版 - 仅按分类搜索)
uv run python skill.py search --categories cs.SE --days 7 --max-results 15 --output-format markdown
# 使用安装的脚本
uv run arxiv-skill search --categories cs.AI --days 30 --max-results 20
直接使用 Python
# 基本用法 - 获取昨天的论文(默认分类)
python skill.py fetch
# 指定分类获取论文
python skill.py fetch --cats cs.AI cs.LG cs.CV --max-papers 20
# 搜索论文(简化版 - 仅按分类搜索)
python skill.py search --categories cs.SE --days 7 --max-results 15 --output-format markdown
# 更多示例
python skill.py search --categories cs.AI cs.LG --days 30 --max-results 20
python skill.py search --cats cs.CV --days 14 --max-results 10 --output-format json
获取帮助信息
使用 -h 或 --help 参数获取完整的帮助信息:
# 使用 uv
uv run python skill.py -h
uv run arxiv-skill --help
# 使用 Python
python skill.py -h
python skill.py --help
# 获取子命令帮助
python skill.py fetch -h
python skill.py search --help
帮助输出示例
主命令帮助
usage: skill.py [-h] {fetch,search} ...
arXiv Paper Search and Daily Fetching
positional arguments:
{fetch,search} Available commands
fetch Fetch yesterday papers
search Search arXiv papers
options:
-h, --help show this help message and exit
fetch 命令帮助
usage: skill.py fetch [-h] [--cats CATEGORIES [CATEGORIES ...]] [--max-papers MAX_PAPERS] [--output-format {markdown,json,both}]
options:
-h, --help show this help message and exit
--cats CATEGORIES [CATEGORIES ...]
arXiv categories to fetch
--max-papers MAX_PAPERS
Maximum papers per category
--output-format {markdown,json,both}
Output format
search 命令帮助
usage: skill.py search [-h] --cats CATEGORIES [CATEGORIES ...] [--days DAYS] [--max-results MAX_RESULTS]
[--output-format {markdown,json,both,preview}]
options:
-h, --help show this help message and exit
--cats CATEGORIES [CATEGORIES ...], --categories CATEGORIES [CATEGORIES ...]
arXiv categories to search (required)
--days DAYS, -d DAYS Search papers from last N days (default: 30)
--max-results MAX_RESULTS
Maximum results to return (default: 15)
--output-format {markdown,json,both,preview}
Output format (default: markdown)
参数说明
fetch 命令参数
--cats,--categories: arXiv分类列表 (默认: cs.OS, cs.PL, cs.SE, cs.AI)--max-papers: 每个分类最大论文数 (默认: 50)--output-format: 输出格式 (markdown|json|both, 默认: markdown)
search 命令参数
--cats,--categories: arXiv分类列表 (必需参数)--days,-d: 最近N天的论文 (默认: 30)--max-results: 最大结果数 (默认: 15)--output-format: 输出格式 (markdown|json|both|preview, 默认: markdown)
搜索功能使用示例
分类搜索
获取cs.SE分类最近7天的论文
搜索cs.AI分类最新15篇论文
查找cs.CV和cs.LG分类最近30天的论文研究
组合搜索示例
# 获取多个分类的最新论文
python skill.py search --categories cs.AI cs.LG cs.CV --days 7 --max-results 20
# 获取较长时间范围的论文
python skill.py search --categories cs.SE --days 90 --max-results 50
# 生成JSON格式报告
python skill.py search --categories cs.AI --days 30 --output-format json
输出格式
Markdown报告结构
# arXiv Daily Paper Report
Generated on: 2025-12-18
Categories: cs.OS, cs.PL, cs.SE, cs.AI
Total Papers: 32
## Summary by Category
### cs.AI (8 papers)
**1. 论文标题**
*Authors:* 作者列表
*Published:* 发布日期
*Categories:* 分类标签
**Summary:** 论文摘要
[Read Paper](链接) | [PDF](PDF链接)
JSON数据结构
{
"id": "论文ID",
"title": "论文标题",
"authors": ["作者列表"],
"summary": "论文摘要",
"published": "发布时间",
"categories": ["分类标签"],
"link": "论文链接",
"pdf_link": "PDF链接"
}
实现细节
技术栈
- Python: 主要编程语言 (3.12+)
- feedparser: RSS/Atom feed解析 (>=6.0.10)
- urllib: HTTP请求处理 (内置库)
- xml.etree.ElementTree: XML解析 (内置库)
- argparse: 命令行参数解析 (内置库)
- json: JSON数据处理 (内置库)
- dataclasses: 数据结构定义 (内置库)
- typing: 类型注解支持 (内置库)
- uv: 包管理和虚拟环境
核心算法
每日论文获取算法
- 时间计算: 自动计算昨天的时间范围(UTC)
- API查询: 通过arXiv API按分类和时间范围获取最新论文
- 摘要提取: 提取论文摘要的前两句话作为简洁摘要
- 数据组织: 按类别和时间组织论文数据
- 报告生成: 生成结构化的markdown报告
搜索功能算法
- 查询构建: 支持关键字搜索和高级arXiv查询语法
- 过滤器应用: 应用分类、日期范围、结果数量等过滤器
- API请求: 使用arXiv Query API执行搜索并处理分页
- 结果排序: 按相关性或提交日期排序搜索结果
- 智能建议: 提供搜索优化建议和冲突检测
- 结果格式化: 支持markdown报告、JSON数据和控制台预览
性能优化
- 请求间隔控制,避免对arXiv服务器造成压力
- 分批处理,提高大批量数据处理效率
- 缓存机制,避免重复获取相同数据
配置选项
可配置参数
- max_papers_per_category: 每个分类获取的最大论文数 (默认: 10)
- categories: 要获取的arXiv分类列表
- output_format: 输出格式 (markdown, json, both)
- summary_length: 摘要长度 (句子数,默认: 2)
自定义示例
# 自定义配置示例
config = {
"categories": ["cs.AI", "cs.LG", "cs.RO"],
"max_papers_per_category": 15,
"output_format": "both",
"summary_length": 3
}
最佳实践
使用建议
- 定期使用: 建议每周或每两周使用一次以跟踪最新进展
- 分类选择: 根据研究兴趣选择合适的分类组合
- 批量处理: 可以一次性获取多个相关分类的论文
- 数据管理: 定期清理旧的报告文件,管理存储空间
研究工作流集成
- 文献管理: 将生成的报告集成到文献管理系统
- 论文筛选: 使用摘要快速筛选感兴趣的论文
- 研究计划: 基于最新论文动态调整研究计划
- 学术交流: 使用生成的报告与同事分享最新进展
故障排除
常见问题
- 网络连接: 确保网络连接正常,可以访问arXiv
- API限制: 避免过于频繁的请求,遵守arXiv的使用条款
- 格式解析: 某些论文可能有特殊格式,系统会自动处理
错误处理
- 网络错误时自动重试
- 解析错误时跳过有问题的论文
- 提供详细的错误日志
扩展功能
未来可能的增强
- 语义搜索: 基于论文内容进行语义相似度搜索
- 作者追踪: 追踪特定作者的最新论文
- 引用分析: 分析论文的引用关系
- 趋势分析: 分析研究趋势和热点
- 个性化推荐: 基于用户兴趣推荐相关论文
集成可能性
- 与文献管理软件集成 (Zotero, Mendeley)
- 与学术社交网络集成 (ResearchGate, Google Scholar)
- 与AI助手集成进行深度分析
伦理和使用准则
学术伦理
- 遵守arXiv的使用条款和API限制
- 尊重论文作者的知识产权
- 正确引用和标注来源
数据隐私
- 不会收集或存储用户个人信息
- 所有数据仅用于论文检索和分析
- 遵守数据保护相关法规
注意: 此Skill仅用于学术研究目的,请确保遵守相关的学术伦理和使用条款。