Python - CGI 编程
公共网关接口(Common Gateway Interface),简称 CGI,是一组定义 web 服务器与自定义脚本之间信息交换方式的标准。目前 CGI 规范由 NCSA 维护。
什么是 CGI?
公共网关接口(Common Gateway Interface),简称 CGI,是外部网关程序与信息服务器(如 HTTP 服务器)接口的标准。
当前版本是 CGI/1.1,CGI/1.2 正在开发中。
Web 浏览
为了理解 CGI 的概念,让我们来看看当我们点击超链接浏览特定网页或 URL 时会发生什么。
您的浏览器联系 HTTP web 服务器并请求 URL,即文件名。
Web 服务器解析 URL 并查找该文件名。如果找到该文件,则将其发送回浏览器;否则发送错误消息,表明您请求的文件不正确。
Web 浏览器从 web 服务器接收响应,并显示接收到的文件或错误消息。
然而,可以配置 HTTP 服务器,使得当请求某个目录中的文件时,该文件不会被直接发送回浏览器;相反,它会被作为程序执行,该程序的输出将被发送回浏览器显示。此功能称为公共网关接口(Common Gateway Interface)或 CGI,这些程序称为 CGI 脚本。这些 CGI 程序可以是 Python 脚本、PERL 脚本、Shell 脚本、C 或 C++ 程序等。
CGI 架构图
Web 服务器支持和配置
在进行 CGI 编程之前,请确保您的 Web 服务器支持 CGI 并已配置为处理 CGI 程序。所有由 HTTP 服务器执行的 CGI 程序都保存在预配置的目录中。此目录称为 CGI 目录,按惯例命名为 /var/www/cgi-bin。按惯例,CGI 文件扩展名为 cgi, 但您也可以使用 Python 扩展名 .py。
默认情况下,Linux 服务器仅配置为运行 /var/www 中的 cgi-bin 目录中的脚本。如果您想指定其他目录来运行 CGI 脚本,请在 httpd.conf 文件中注释以下行 −
<Directory "/var/www/cgi-bin"> AllowOverride None Options ExecCGI Order allow,deny Allow from all </Directory> <Directory "/var/www/cgi-bin"> Options All </Directory>
对于 Apache 服务器,还应添加以下行以将 .py 文件视为 CGI 脚本。
AddHandler cgi-script .py
这里,我们假设您已成功启动并运行 Web 服务器,并且能够运行其他 CGI 程序,如 Perl 或 Shell 等。
第一个 CGI 程序
以下是一个简单的链接,链接到一个名为 hello.py 的 CGI 脚本。该文件保存在 /var/www/cgi-bin 目录中,内容如下。在运行 CGI 程序之前,请确保使用 chmod 755 hello.py UNIX 命令更改文件模式,使其可执行。
print ("Content-type:text/html\r\n\r\n")
print ('<html>')
print ('<head>')
print ('<title>Hello Word - First CGI Program</title>')
print ('</head>')
print ('<body>')
print ('<h2>Hello Word! This is my first CGI program</h2>')
print ('</body>')
print ('</html>')
注意 − 脚本的第一行必须是 Python 可执行文件的路径。在 Python 程序中它显示为注释,但它被称为 shebang 行。
在 Linux 中,应为 #!/usr/bin/python3。
在 Windows 中,应为 #!c:/python311/python.exd。
在浏览器中输入以下 URL −
http://localhost/cgi-bin/hello.py
你好世界!这是我的第一个 CGI 程序
这个 hello.py 脚本是一个简单的 Python 脚本,它将输出写入到 STDOUT 文件,即屏幕上。还有一个重要的额外特性,那就是首先打印的第一行 Content-type:text/html\r\n\r\n。这一行会发送回浏览器,并指定要在浏览器屏幕上显示的内容类型。
到现在为止,你应该已经理解了 CGI 的基本概念,你可以使用 Python 编写许多复杂的 CGI 程序。这个脚本还可以与任何其他外部系统交互,以交换信息,例如 RDBMS。
HTTP 头部
行 Content-type:text/html\r\n\r\n 是 HTTP 头部的一部分,它发送到浏览器以理解内容。所有的 HTTP 头部都将采用以下形式 −
HTTP Field Name: Field Content For Example Content-type: text/html\r\n\r\n
还有一些其他重要的 HTTP 头部,你将在 CGI 编程中经常使用它们。
| 序号 | 头部 & 描述 |
|---|---|
| 1 | Content-type: 定义返回文件的格式的 MIME 字符串。例如 Content-type:text/html |
| 2 | Expires: Date 信息变得无效的日期。浏览器使用它来决定何时需要刷新页面。有效的日期字符串格式为 01 Jan 1998 12:00:00 GMT。 |
| 3 | Location: URL 代替请求的 URL 返回的 URL。你可以使用此字段将请求重定向到任何文件。 |
| 4 | Last-modified: Date 资源的最后修改日期。 |
| 5 | Content-length: N 返回数据的字节长度。浏览器使用此值报告文件的预计下载时间。 |
| 6 | Set-Cookie: String 设置通过 string 传递的 cookie |
CGI 环境变量
所有 CGI 程序都可以访问以下环境变量。这些变量在编写任何 CGI 程序时起着重要作用。
| 序号 | 变量名 & 描述 |
|---|---|
| 1 | CONTENT_TYPE 内容的数据类型。当客户端向服务器发送附加内容时使用,例如文件上传。 |
| 2 | CONTENT_LENGTH 查询信息的长度。只有在 POST 请求时才可用。 |
| 3 | HTTP_COOKIE 以键值对形式返回设置的 cookie。 |
| 4 | HTTP_USER_AGENT User-Agent 请求头部字段包含关于发起请求的用户代理的信息。它是 web 浏览器的名称。 |
| 5 | PATH_INFO CGI 脚本的路径。 |
| 6 | QUERY_STRING 使用 GET 方法请求发送的 URL 编码信息。 |
| 7 | REMOTE_ADDR 发起请求的远程主机的 IP 地址。这对于日志记录或身份验证很有用。 |
| 8 | REMOTE_HOST 发起请求的主机的完全限定名称。如果此信息不可用,则可以使用 REMOTE_ADDR 获取 IP 地址。 |
| 9 | REQUEST_METHOD 用于发出请求的方法。最常见的方法是 GET 和 POST。 |
| 10 | SCRIPT_FILENAME CGI 脚本的完整路径。 |
| 11 | SCRIPT_NAME CGI 脚本的名称。 |
| 12 | SERVER_NAME 服务器的主机名或 IP 地址 |
| 13 | SERVER_SOFTWARE 服务器运行的软件的名称和版本。 |
以下是一个小型 CGI 程序,用于列出所有 CGI 变量。点击此链接查看结果 Get Environment
import os
print ("Content-type: text/html\r\n\r\n");
print ("<font size=+1>环境变量</font><br>");
for param in os.environ.keys():
print ("<b>%20s</b>: %s<br>" % (param, os.environ[param]))
GET 和 POST 方法
你一定遇到过许多需要从浏览器向 web 服务器(最终到你的 CGI 程序)传递一些信息的情况。最常见的是,浏览器使用两种方法将此信息传递给 web 服务器。这两种方法是 GET 方法和 POST 方法。
使用 GET 方法传递信息
GET 方法将编码后的用户信息附加到页面请求中发送。页面和编码信息之间用 ? 字符分隔,如下所示 −
http://www.test.com/cgi-bin/hello.py?key1=value1&key2=value2
GET 方法是从浏览器向 web server 传递信息默认方法,它会生成一个长字符串,显示在浏览器地址栏中。
如果要向服务器传递密码或其他敏感信息,绝不要使用 GET 方法。
GET 方法有大小限制:请求字符串中只能发送 1024 个字符。
GET 方法使用 QUERY_STRING header 发送信息,在 CGI 程序中可以通过 QUERY_STRING 环境变量访问。
您可以通过将键值对简单连接到任何 URL 来传递信息,或者使用 HTML <FORM> 标签以 GET 方法传递信息。
简单 URL 示例:Get 方法
以下是一个简单的 URL,使用 GET 方法向 hello_get.py 程序传递两个值。
/cgi-bin/hello_get.py?first_name=Malhar&last_name=Lathkar
以下是 hello_get.py 脚本,用于处理 web 浏览器提供的输入。我们将使用 cgi 模块,这使得访问传递的信息变得非常简单 −
# 导入用于 CGI 处理的模块
import cgi, cgitb
# 创建 FieldStorage 实例
form = cgi.FieldStorage()
# 从字段获取数据
first_name = form.getvalue('first_name')
last_name = form.getvalue('last_name')
print ("Content-type:text/html")
print()
print ("<html>")
print ('<head>')
print ("<title>Hello - Second CGI Program</title>")
print ('</head>')
print ('<body>')
print ("<h2>Hello %s %s</h2>" % (first_name, last_name))
print ('</body>')
print ('</html>')
这将生成以下结果 −
Hello Malhar Lathkar
简单 FORM 示例:GET 方法
此示例使用 HTML FORM 和提交按钮传递两个值。我们使用相同的 CGI 脚本 hello_get.py 来处理此输入。
<form action = "/cgi-bin/hello_get.py" method = "get"> First Name: <input type = "text" name = "first_name"> <br /> Last Name: <input type = "text" name = "last_name" /> <input type = "submit" value = "Submit" /> </form>
以下是上述表单的实际输出,您输入名字和姓氏,然后点击提交按钮查看结果。
使用 POST 方法传递信息
向 CGI 程序传递信息的更可靠方法通常是 POST 方法。它以与 GET 方法完全相同的方式打包信息,但不是作为 URL 中 ? 后的文本字符串发送,而是作为单独的消息发送。此消息以标准输入的形式进入 CGI 脚本。
以下是相同的 hello_get.py 脚本,它可以处理 GET 和 POST 方法。
# 导入用于 CGI 处理的模块
import cgi, cgitb
# 创建 FieldStorage 实例
form = cgi.FieldStorage()
# 从字段获取数据
first_name = form.getvalue('first_name')
last_name = form.getvalue('last_name')
print "Content-type:text/html\r\n\r\n"
print "<html>"
print "<head>"
print "<title>Hello - Second CGI Program</title>"
print "</head>"
print "<body>"
print "<h2>Hello %s %s</h2>" % (first_name, last_name)
print "</body>"
print "</html>"
让我们再次使用上述示例,通过 HTML FORM 和提交按钮传递两个值。我们使用相同的 CGI 脚本 hello_get.py 来处理此输入。
<form action = "/cgi-bin/hello_get.py" method = "post"> First Name: <input type = "text" name = "first_name"><br /> Last Name: <input type = "text" name = "last_name" /> <input type = "submit" value = "Submit" /> </form>
以下是上述表单的实际输出。您输入名字和姓氏,然后点击提交按钮查看结果。
将复选框数据传递给 CGI 程序
当需要选择多个选项时使用复选框。
以下是一个包含两个复选框的表单示例 HTML 代码 −
<form action = "/cgi-bin/checkbox.cgi" method = "POST" target = "_blank"> <input type = "checkbox" name = "maths" value = "on" /> Maths <input type = "checkbox" name = "physics" value = "on" /> Physics <input type = "submit" value = "Select Subject" /> </form>
此代码的结果是以下表单 −
以下是 checkbox.cgi 脚本,用于处理浏览器发送的复选框按钮输入。
# 导入处理 CGI 的模块
import cgi, cgitb
# 创建 FieldStorage 实例
form = cgi.FieldStorage()
# 从字段获取数据
if form.getvalue('maths'):
math_flag = "ON"
else:
math_flag = "OFF"
if form.getvalue('physics'):
physics_flag = "ON"
else:
physics_flag = "OFF"
print "Content-type:text/html\r\n\r\n"
print "<html>"
print "<head>"
print "<title>Checkbox - Third CGI Program</title>"
print "</head>"
print "<body>"
print "<h2> CheckBox Maths is : %s</h2>" % math_flag
print "<h2> CheckBox Physics is : %s</h2>" % physics_flag
print "</body>"
print "</html>"
将单选按钮数据传递给 CGI 程序
当只需要选择一个选项时使用单选按钮。
以下是一个包含两个单选按钮的表单示例 HTML 代码 −
<form action = "/cgi-bin/radiobutton.py" method = "post" target = "_blank"> <input type = "radio" name = "subject" value = "maths" /> Maths <input type = "radio" name = "subject" value = "physics" /> Physics <input type = "submit" value = "Select Subject" /> </form>
此代码的结果是以下表单 −
以下是 radiobutton.py 脚本,用于处理浏览器发送的单选按钮输入 −
# 导入处理 CGI 的模块
import cgi, cgitb
# 创建 FieldStorage 实例
form = cgi.FieldStorage()
# 从字段获取数据
if form.getvalue('subject'):
subject = form.getvalue('subject')
else:
subject = "Not set"
print "Content-type:text/html\r\n\r\n"
print "<html>"
print "<head>"
print "<title>Radio - Fourth CGI Program</title>"
print "</head>"
print "<body>"
print "<h2> Selected Subject is %s</h2>" % subject
print "</body>"
print "</html>"
将文本区域数据传递给 CGI 程序
当需要将多行文本传递给 CGI 程序时使用 TEXTAREA 元素。
以下是一个包含 TEXTAREA 框的表单示例 HTML 代码 −
<form action = "/cgi-bin/textarea.py" method = "post" target = "_blank">
<textarea name = "textcontent" cols = "40" rows = "4">
Type your text here...
</textarea>
<input type = "submit" value = "Submit" />
</form>
此代码的结果是以下表单 −
以下是 textarea.cgi 脚本,用于处理浏览器发送的输入 −
# 导入处理 CGI 的模块
import cgi, cgitb
# 创建 FieldStorage 实例
form = cgi.FieldStorage()
# 从字段获取数据
if form.getvalue('textcontent'):
text_content = form.getvalue('textcontent')
else:
text_content = "Not entered"
print "Content-type:text/html\r\n\r\n"
print "<html>"
print "<head>";
print "<title>Text Area - Fifth CGI Program</title>"
print "</head>"
print "<body>"
print "<h2> Entered Text Content is %s</h2>" % text_content
print "</body>"
将下拉框数据传递给 CGI 程序
当下拉框用于有很多选项可用但只选择一两个选项时。
以下是一个带有单个下拉框的表单的示例 HTML 代码 −
<form action = "/cgi-bin/dropdown.py" method = "post" target = "_blank">
<select name = "dropdown">
<option value = "Maths" selected>Maths</option>
<option value = "Physics">Physics</option>
</select>
<input type = "submit" value = "Submit"/>
</form>
此代码的结果是以下表单 −
下面是用于处理 web 浏览器输入的 dropdown.py 脚本。
# 导入用于 CGI 处理的模块
import cgi, cgitb
# 创建 FieldStorage 实例
form = cgi.FieldStorage()
# 从字段获取数据
if form.getvalue('dropdown'):
subject = form.getvalue('dropdown')
else:
subject = "Not entered"
print "Content-type:text/html\r\n\r\n"
print "<html>"
print "<head>"
print "<title>Dropdown Box - Sixth CGI Program</title>"
print "</head>"
print "<body>"
print "<h2> Selected Subject is %s</h2>" % subject
print "</body>"
print "</html>"
在 CGI 中使用 Cookies
HTTP 协议是一种无状态协议。对于商业网站,需要在不同页面之间维护会话信息。例如,一个用户注册在完成多个页面后结束。如何在所有网页中维护用户的会话信息?
在许多情况下,使用 cookies 是记住和跟踪偏好、购买、佣金以及其他有助于改善访客体验或站点统计信息的最有效方法。
工作原理?
您的服务器以 cookie 的形式向访客的浏览器发送一些数据。浏览器可能会接受该 cookie。如果接受,它将作为纯文本记录存储在访客的硬盘上。现在,当访客到达您网站上的另一个页面时,cookie 可供检索。一旦检索到,您的服务器就知道/记得存储的内容。
Cookies 是 5 个可变长度字段的纯文本数据记录 −
Expires − cookie 过期日期。如果此字段为空,则访客关闭浏览器时 cookie 将过期。
Domain − 您网站的域名。
Path − 设置 cookie 的目录或网页路径。如果您希望从任何目录或页面检索 cookie,此字段可以为空。
Secure − 如果此字段包含“secure”一词,则 cookie 只能通过安全服务器检索。如果此字段为空,则不存在此类限制。
Name = Value − Cookies 以键值对的形式设置和检索。
设置 Cookies
向浏览器发送 cookies 非常简单。这些 cookies 与 HTTP Header 一起发送,在 Content-type 字段之前。假设您想将 UserID 和 Password 设置为 cookies。设置 cookies 的方法如下 −
print "Set-Cookie:UserID = XYZ;\r\n" print "Set-Cookie:Password = XYZ123;\r\n" print "Set-Cookie:Expires = Tuesday, 31-Dec-2007 23:12:40 GMT;\r\n" print "Set-Cookie:Domain = www.example.com;\r\n" print "Set-Cookie:Path = /perl;\n" print "Content-type:text/html\r\n\r\n" ...........Rest of the HTML Content....
从此示例中,您一定已经了解了如何设置 cookies。我们使用 Set-Cookie HTTP header 来设置 cookies。
设置 Expires、Domain 和 Path 等 cookies 属性是可选的。值得注意的是,cookies 在发送魔术行 "Content-type:text/html\r\n\r\n 之前设置。
获取 Cookies
获取所有已设置的 cookies 非常简单。Cookies 存储在 CGI 环境变量 HTTP_COOKIE 中,其格式如下 −
key1 = value1;key2 = value2;key3 = value3....
以下是获取 cookies 的示例。
# 导入用于 CGI 处理的模块
from os import environ
import cgi, cgitb
if environ.has_key('HTTP_COOKIE'):
for cookie in map(strip, split(environ['HTTP_COOKIE'], ';')):
(key, value ) = split(cookie, '=');
if key == "UserID":
user_id = value
if key == "Password":
password = value
print "User ID = %s" % user_id
print "Password = %s" % password
上述脚本设置的 cookies 将产生以下结果 −
User ID = XYZ Password = XYZ123
文件上传示例
要上传文件,HTML 表单必须将 enctype 属性设置为 multipart/form-data。具有 file 类型的 input 标签会创建一个“浏览”按钮。
<html>
<body>
<form enctype = "multipart/form-data" action = "save_file.py" method = "post">
<p>File: <input type = "file" name = "filename" /></p>
<p><input type = "submit" value = "Upload" /></p>
</form>
</body>
</html>
此代码的结果是以下表单 −
上述示例已被故意禁用,以防止用户向我们的服务器上传文件,但您可以在自己的服务器上尝试上述代码。
以下是处理文件上传的脚本 save_file.py −
import cgi, os
import cgitb; cgitb.enable()
form = cgi.FieldStorage()
# 在此处获取文件名。
fileitem = form['filename']
# 测试文件是否已上传
if fileitem.filename:
# 从文件名中剥离前导路径,以避免
# 目录遍历攻击
fn = os.path.basename(fileitem.filename)
open('/tmp/' + fn, 'wb').write(fileitem.file.read())
message = 'The file "' + fn + '" was uploaded successfully'
else:
message = 'No file was uploaded'
print """\
Content-Type: text/html\n
<html>
<body>
<p>%s</p>
</body>
</html>
""" % (message,)
如果您在 Unix/Linux 上运行上述脚本,则需要注意替换文件分隔符,如下所示,否则在 Windows 机器上上述 open() 语句应该能正常工作。
fn = os.path.basename(fileitem.filename.replace("\\", "/" ))
如何弹出“文件下载”对话框?
有时,您可能希望提供一个选项,让用户点击链接时弹出“文件下载”对话框,而不是显示实际内容。这非常简单,可以通过 HTTP header 实现。此 HTTP header 与前一节中提到的 header 不同。
例如,如果您想让 FileName 文件从给定链接下载,其语法如下 −
# HTTP Header
print "Content-Type:application/octet-stream; name = \"FileName\"\r\n";
print "Content-Disposition: attachment; filename = \"FileName\"\r\n\n";
# 实际文件内容将放在此处。
fo = open("foo.txt", "rb")
str = fo.read();
print str
# 关闭打开的文件
fo.close()