使用Python的BeautifulSoup和Selenium库,可以高效自动化提取网站数据库内容。首先安装依赖:pip install beautifulsoup4 selenium requests。然后编写脚本:
from bs4 import BeautifulSoup
import requests
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://example.com/database')
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
data = soup.find_all('table', class_='db-table')
for row in data:
print(row.text)
driver.quit()提取后,使用Notion API或Obsidian插件导入知识库,实现自动管理。自动化爬虫技巧分享
我用Scrapy框架爬取网站数据库,每天定时运行。设置settings.py中的DOWNLOAD_DELAY=2避免被封,pipeline处理数据存入SQLite。然后用Airflow调度任务,提取的知识直接推送到Evernote,实现高效管理。代码示例:scrapy crawl db_spider -o output.json
网站数据自动提取经验
通过Puppeteer在Node.js中实现 headless浏览器自动化,访问动态网站数据库。const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://site.com/db'); const data = await page.evaluate(() => document.querySelectorAll('.data-row')); console.log(data); })(); 提取后用Markdown文件存入本地知识库,用Obsidian搜索管理。
知识管理自动化流程
结合Zapier无代码工具,监控RSS或网站变化,触发Google Sheets提取数据库内容,再同步到Roam Research。无需编程,设置触发器:New Webhook → Extract Data → Update Knowledge Base。简单高效,节省时间。
Python脚本实现数据库爬取
import pandas as pd from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.get('target site') rows = driver.find_elements(By.TAG_NAME, 'tr') df = pd.DataFrame([ [td.text for td in row.find_elements(By.TAG_NAME, 'td')] for row in rows ]) df.to_csv('knowledge.csv') 用Logseq导入CSV,实现知识图谱自动构建。
高效工具组合分享
用Octoparse可视化抓取网站数据库,无需代码,导出JSON。然后用Readwise导入Anki卡片,或Notion数据库。定时任务用Windows任务计划程序运行Octoparse,自动化全流程。
动态网站提取与管理
对于JavaScript渲染的数据库,用Playwright库:pip install playwright playwright install from playwright.sync_api import sync_playwright with sync_playwright() as p: browser = p.chromium.launch() page = browser.new_page() page.goto('url') data = page.inner_text('.database') print(data) 存入Dendron或Tana,实现知识自动整理。
FAQ
Q: 怎么避免网站反爬虫?
A: 加随机延时、User-Agent旋转、代理IP。
Q: 提取数据怎么存储知识库?
A: 用CSV/JSON导入Notion、Obsidian或Evernote。
Q: 免费工具有哪些?
A: Scrapy、BeautifulSoup、Zapier免费版。
Q: 动态页面怎么处理?
A: 用Selenium或Puppeteer模拟浏览器。