常见的特殊文件夹与目录
常见的网站源码备份文件后缀
常见的网站源码备份文件名
dirsearch(https://github.com/maurosoria/dirsearch)
· 用法:python dirsearch.py -u http://www.baidu.com -e php
Git
·git_extract(https://github.com/gakki429/Git_Extract)(推荐使用)
.git 目录的文件夹中运行 git_extract.sh 脚本
robots.txt
- 从技术角度定义
- robots.txt(机器人排除协议)是一个放置在网站根目录下的文本文件。它使用特定的语法规则来为网络机器人(如搜索引擎的爬虫程序)提供访问网站内容的指令。这些指令主要是关于允许和禁止访问网站的特定区域或文件。
- 本质上,它是网站所有者和网络机器人开发者之间的一种约定,用于控制机器人在网站上的行为,以达到保护网站隐私信息、节省服务器资源、优化搜索引擎索引等目的。
- 从功能角度定义
- 它是一种网站和搜索引擎等网络机器人之间的通信工具。通过在 robots.txt 文件中定义规则,网站可以告诉搜索引擎哪些页面是公开的、可以被索引和抓取的,哪些页面是不希望被访问的,例如包含敏感信息、内部使用数据或者正在开发中的页面。例如,一个电商网站可能希望搜索引擎抓取产品页面和分类页面,以便在搜索结果中展示商品信息,但不希望抓取后台管理页面和用户订单处理页面,就可以通过 robots.txt 文件来实现这种区分。
robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。
内容与说明: User-agent: * Disallow: User-agent: 后面为搜索机器人的名称,后面如果是 *,则泛指所有的搜索机器人 Disallow: 后面为不允许访问的文件目录,为空则表示允许访问站点下的所有文件
phpinfo()
phpinfo () 是 php 中查看相关信息的函数,当在页面中执行 phpinfo () 函数时,php 会将自身的所有信息 全部打印出来。在 phpinfo () 中会泄露很多服务端的一些信息。 其中信息包含有:php 版本、服务器信息、环境变量等重要配置信息。
发现了 .git/ 或 .svn/ 等敏感目录。如果发现返回 403(禁止访问),这表明该目录存在 尝试访问 .git/config 文件: 访问 http://target.com/.git/config。
如果能够访问该文件,查看其内容,这通常会暴露 Git 仓库的配置信息。可以使用 git 工具克隆整个仓库。 git clone http://target.com/.git/ target_repo 直接访问 http://target.com/.svn/entries。
如果 entries 文件存在且非空,查看其中内容,可能暴露目录结构和文件路径。 如果 entries 文件为空,尝试访问 http://target.com/.svn/wc.db。 下载 wc.db 文件后,使用 SQLite 工具查看其中的 checksum 字段,并找到对应的文件。