• 熊貓采集軟件幫助系統目錄列表 幫助目錄 詞典
  • 一、項目設置
  • 基礎設置
    1. 項目名稱
    2. 項目位置
    3. 所屬類別
    4. 網站編碼
    5. 項目備注
    6. 參與下載的線程數量
    7. 頁面訪問間隔毫秒數
    8. 數據存入已有的數據庫表內
    9. 自動生成當前項目的數據庫表單
    10. 直接存入本機文件內(text/Excel)
    11. 臨時緩存,并自動發布到網站
    12. 模擬登錄(設置cookie)
    13. 登陸頁面url
    14. 模擬登錄的cookie值代碼
    15. Cookie的來源
    16. 啟用定期更新功能
    17. 完全覆蓋已有數據
    18. 檢查補充新增的內容
    19. 不處理,廢棄新數據
  • 數據庫設置
    1. 數據庫類別:ACCESS
    2. 數據庫類別:SQL Server(MS SQL)
    3. 數據庫類別:MY SQL
    4. 數據庫類別:Oracle
    5. 選擇ACCESS數據庫文件
    6. 數據庫IP
    7. (數據庫)庫名稱
    8. 數據庫登錄用戶名
    9. 數據庫登錄密碼
    10. 主表(父表)
    11. 選擇主表主鍵
    12. 啟用子表
    13. 指向父表主鍵的字段
    14. 子表列表
    15. 確認入選的子表集合
  • 文件下載及FTP上傳設置
    1. 圖片類文件的存儲目錄
    2. flash動畫文件的存儲目錄
    3. 其它類文件的存儲目錄
    4. 將下載的文件同步上傳到服務器
    5. FTP服務器IP(FTP設置)
    6. FTP用戶名
    7. FTP登錄密碼
    8. FTP端口
    9. FTP被動模式
    10. 默認FTP根目錄
    11. 直接存儲在默認FTP根目錄下
    12. 由系統自動生文件上傳目錄
    13. 人工指定文件上傳目錄
    14. FTP圖片類文件的目錄名稱
    15. FTPflash文件的目錄名稱
    16. FTP其它類文件的目錄名稱
  • 標題列表頁設置
    1. (標題)列表頁起始網址
    2. 指定列表頁的訪問方式:get
    3. 指定列表頁的訪問方式:post
    4. 直接指定翻頁的鏈接
    5. 直接指定翻頁的鏈接的列表
    6. 標題列表頁面翻頁訪問時的最大頁數
    7. 更新訪問時該翻頁訪問的最大頁數
    8. 自定義翻頁參數的設置
    9. 自定義翻頁參數的列表
    10. (翻頁參數的)參數名稱
    11. (翻頁參數的)自動動態取值
    12. 數值增減
    13. 初始值
    14. 目標值
    15. 更新運行時的目標值
    16. 值變化步長
    17. 字符串長度補缺的位數
    18. 參數值列表
    19. 恒定值(常量)
  • 列表頁引導設置
    1. 直接指定內容頁面
    2. 普通模式
    3. 內容頁面的名稱或關鍵字符
    4. 中介方式
    5. 網頁源碼中出現地址參數關鍵值的源代碼
    6. (中介方式)內容頁面地址
  • 內容頁面的設置
    1. 內容頁模板種類列表
    2. 內容頁面的參考模板Url

  • 二、項目高級設置:
  • 綜合
    1. 使用動態cookie
    2. 詳盡輸出日志
  • 文件下載
    1. 限定后綴名
    2. 排除后綴名
    3. 無后綴名的文件不下載
  • 頁面解析
    1. 依據冒號進行分段
    2. 依據斜杠對數值進行分段
    3. 對日期字符串的前后進行修剪
    4. 圖片實際地址的轉換
  • 采集匹配
    1. 中介模式下區分網頁代碼的大小寫
    2. 嚴格限制數據庫父子表的邏輯關系
    3. 不進行糾錯操作
    4. 不采集復合語句內的隱藏內容
    5. 自動檢查并優先使用最合適的模板
    6. 過濾掉單個采集對象所屬的某單一子表下的重復采集內容
  • 代理訪問 (暫無)
  • 三、內容頁面模板的學習定制:
  • 網頁的解析
    1. 用于學習的內容頁面的典型模板的url
    2. 當前模板頁面的網頁編碼
    3. 模板頁面內容的分解與指定
    4. 網頁元素的類型
    5. 網頁元素的鏈接屬性
    6. 前綴標題字符的確認
    7. 網頁元素屬性:時間格式
    8. 網頁元素屬性:整數
    9. 網頁元素屬性:浮點數
    10. 網頁元素屬性:郵箱
  • 入選采集 (入選為采集對象,選擇數據庫表的對應字段(或者下載文件))
    1. 存入數據庫表
    2. 數據庫"表"列表
    3. 字段名列表
    4. 為多語句/或段落
    5. 下載該文件
    6. 下載當前文件
    7. 下載鏈接指向的文件
    8. (下載文件)存儲在本地目錄
    9. (下載文件)默認目錄
    10. (下載文件)默認目錄列表
    11. (下載文件)FTP上傳到服務器指定目錄
    12. (下載文件)FTP上傳到服務器指定目錄列表
    13. (下載文件)使用第三方軟件下載該文件
    14. (下載文件)使用第三方下載軟件的列表
  • 采集選項
    1. 該項必須命中
    2. 比對內容的CSS
    3. 比對標題的CSS
    4. 自動重命名下載文件名
    5. 結果內容保留CSS屬性
    6. 不采集內含的隱藏內容
    7. 對該項進行分頁歸并
  • 采集選項-對字段采集結果的修繕
    1. 當前字段的原文
    2. 修繕方法的列表
    3. 修繕的位置:字段全部
    4. 修繕的位置:字段頭部
    5. 修繕的位置:字段尾部
    6. 修繕的方式:刪除
    7. 修繕的方式:添加
    8. 修繕的方式:修改替換
    9. 修繕的方式:近義詞替換(偽原創)
    10. 修繕的方式:時間提前
    11. 區分大小寫
    12. 原內容(支持正則表達式)
    13. 新內容

  • 分頁訪問與合并 (該鏈接為指向“當前頁的分頁”的鏈接)
    1. 更新訪問時該分頁訪問的最大深度頁

  • 下級子頁面 (該鏈接為指向“下級子頁面”的鏈接(直接或間接鏈接))
    1. 該子頁面(在當前頁面內)具有多個重復并列子項
    2. 該下級頁面必須有命中
    3. (指向具有重復子項的下級頁面)高級設定
    4. (指向具有重復子項的下級頁面)重定范圍
    5. 子頁面的多模板列表
    6. 新增子模板頁面的url網址

  • 添加中介鏈接 (利用中介方式添加新的鏈接指向)
    1. 包含地址參數關鍵值的代碼
    2. 內容頁面地址

  • 四、項目的運行與管理:
  • 新建項目前的必要準備
    1. 明確需要采集什么內容,從哪兒采。
    2. 明確采集的結果數據需要存儲在哪兒,用什么存儲。
    3. 熟悉被采集網站的邏輯架構,找到標題列表頁面內容頁面。
  • 開始新建采集項目
    1. 點擊軟件主界面菜單:“項目管理”-“新建項目”,新建一個采集項目。并依次設置
    2. 項目基礎設置(新手指引)(少數項目在此處需要打開設置界面下方的“高級設置”對話框。配置高級屬性,新手略)
    3. 數據庫設置(新手指引)
    4. 文件下載(新手指引)設置(默認情況下不用設置此項)
    5. 設置標題列表頁頁面(新手指引)翻頁的方式和方法
    6. 設置標題列表頁面向內容頁面(新手指引)過度方式和方法
    7. 設置內容頁面(新手指引),配置需要采集的網頁內容。并在內容頁面模板管理(新手指引)窗口對定義的內容頁面模板進行管理。
    8. 保存設置。完成采集項目的配置。
  • 試運行采集項目
    1. 在軟件主界面左側項目列表中點選剛才新設置的項目。
    2. 勾選軟件主界面右側的“試運行”復選按鈕。
    3. 點擊“立即運行”項目按鈕(“試運行”復選按鈕上方),開始試運行當前項目
    4. 查看運行結果數據,據此判斷項目的設置是否是您想要的結果。
    5. 如果需要調整該項目的采集設置,請在軟件主界面左側的項目列表框內雙擊該項目,打開修改窗口。
    6. 再試運行無誤后,可以開始執行采集運行。
  • 2021四虎国产精品|无码国产作爱免费视频|18禁免费黄片1区2区欧美|99热这里只有精品18禁|99久久精品国产一区二区蜜芽