Web Scraper API

参数说明

参数说明

1.基础参数

不同爬虫的参数就是context中不同,需要包含在里面
 
参数名 描述 类型 是否必填
locale 语言/地区设置(如 "en-US") string
source 数据源类型, string
geo 地区 string
format 需要的返回格式 []string
js_render 是否开启js渲染
false:禁用 true:启动 默认为(false)
boll
context 查询上下文容器 object

2..Youtube抓取参数

功能名称 参数名 描述 类型 是否必填
YouTube-视频详情 url_list

├─ url
视频 URL 列表,数组,包含多个视频对象 array<object>
  单个 YouTube 视频链接 string
Youtube-视频搜索 keyword 搜索关键词 string/null
  continuation 搜索结果分页游标(用于获取更多结果) string/null
Youtube-视频字幕 url YouTube 视频完整链接 string/null
  output_format 字幕输出格式,目前支持 "srt" string
Youtube-用户信息获取

url_list


├─ url

用户主页 URL 列表,包含多个用户对象 array<object>
  单个 YouTube 用户主页链接 string

下面以 YouTube 抓取字幕为例:

"request_example": {
  "locale": "en",
  "context": {
    "video_url": "https://www.youtube.com/watch?v=N0p05Tq7oq0",         
    "output_format": "srt"
   } 
}
youtube字幕下载
 

3..Facebook抓取参数

功能名称 参数名 描述 类型 是否必填
Facebook-用户资料 url_list List of Facebook user or page URLs to extract profile information from list
  list A valid Facebook profile or page URL string

这里以抓取FB用户信息为例:

"request_example": {
    "locale": "en-US",
    "source": "facebook_user_profile",
    "context": {
      "url_list": [
        {
           "url": "https://www.facebook.com/zuck/"
        }
      ]
   }
}

4.亚马逊抓取参数

功能名称 参数名 描述 类型 是否必填
Amazon-商品搜索 keyword_list

├─ keyword
搜索关键词列表,支持多个关键词抓取 list (object[])
  要抓取的单个搜索关键词 string
  start_pages 起始页码,从第几页开始抓取(如第一页为 1) number
  pages 抓取页数,一共抓取几页数据 number
Amazon-最佳卖家 category_list

├─ category_id
类别 ID 列表,数组,包含多个类别对象 array<object>
  类别唯一标识 string
  start_page 起始页码,从第几页开始抓取 integer
  pages 总抓取页数,抓取多少页 integer
亚马逊商品评论 product_url_list

├─ product_url
商品 URL 列表,包含多个商品对象 array<object>
  单个商品的 URL string
亚马逊商品详情 product_url_list

├─ product_url
商品 URL 列表,包含多个商品对象 array<object>
  单个商品的 URL string

这里以抓取amazon商品关键词为例:

"request_example": {
  "geo": "US",
  "format": false,
  "locale": "en-US",
  "source": "amazon_search",
  "context": {
    "pages": 2,
    "start_page": 1,
    "keyword_list": [
      {
       "keyword": "1077068"
     }
   ]
 },
"js_render": false
}

5.TikTok抓取参数

功能名称 参数名 描述 类型 是否必填
TK 视频搜索 keyword 搜索关键词,系统将根据该关键词查找视频 string
TK评论 video_id 抖音视频 ID,用于定位视频 string
  cursor 游标,用于分页获取更多回复 string
  count 每页返回的回复数量限制 integer
TK用户信息搜索 url_list

├─ user_url
用户 URL 列表,数组,包含多个用户对象 array<object>
  单个 TikTok 用户主页 URL string

这里以抓取TK视频信息为例:

"request_example": {
  "source": "tiktok_video",
  "context": {
     "sec_uid": "911proxy"
  }
}

6.X抓取参数

功能名称 参数名 描述 类型 是否必填
X推文信息 user_id Twitter 用户的 ID,用于获取该用户的推文 string

这里以抓取X推文信息为例:

"request_example": {
  "locale": "en-US",
  "source": "twitter_tweets",
  "context": {
     "url_list": [
       {
          "tweet_id": "44196397"
       }
     ]
   }
}

7.Google抓取参数

功能名称 参数名 描述 类型 是否必填 可选项
谷歌职位搜索 job_name 职位名称关键字 string -
  job_location_list

├job_location
地点列表 array<object> -
  experiences 工作经验筛选值 array<string> INTERN_AND_APPRENTICE
EARLY
MID
ADVANCED
DIRECTOR_PLUS
  has_remote 是否远程职位 boolean -
  skills 技能关键词(英文逗号分隔) string -
  degree 学历筛选值 array<string> PURSUING_DEGREE
ASSOCIATE
BACHELORS
MASTERS
DOCTORATE
  employment_type 职位类型 array<string> FULL_TIME
PART_TIME
TEMPORARY
INTERN
  sort_by 排序字段(相关性/时间) string relevance
date
  page 分页页码(从1开始) integer (建议) / string -
谷歌活动 keywords_list 关键词列表(数组,包含 keyword 字段) array<object> -
  start_page 起始页码(从第几页开始抓取) integer -
  end_page 结束页码(抓取到第几页为止) integer -
谷歌图片 keywords_list

├keyword
关键词对象数组,用于指定搜索关键词 array<object> -
  搜索关键词 string -
  start_page 起始页码(抓取从第几页开始) integer / null -
  end_page 结束页码(抓取到第几页为止) integer / null -
谷歌自动联想词 keywords_list

├keyword
关键词对象数组 array<object> -
  搜索关键词,用于获取自动补全建议 string -
谷歌财经 keywords_list

├keyword
关键词对象数组 array<object> -
  搜索关键词(如公司名、股票代码等) string -
谷歌搜索 keywords_list

├keyword
搜索关键词对象数组 array<object> -
  搜索关键词字符串(如产品名、品牌名等) string -
  start_page 起始搜索结果页码,从第几页开始搜索(如 1) int/null -
  end_page 结束搜索结果页码,到第几页结束搜索(如 3) int/null -

这里以抓取 google job为例:

"request_example": {
  "locale": "en-US",
  "source": "google_job_search",
  "context": {
     "page": "1",
     "degree": "BACHELOR",
     "skills": "python, sql",
     "sort_by": "date",
     "job_name": "software engineer",
     "locations": [
       {
         "location": "London"
       }
     ],
     "has_remote": true,
     "experience_list": [
       {
         "experience": "MID"
       }
     ],
     "employment_type_list": [
       {
         "employment_type": "FULL_TIME"
       }
     ]
    }
  },
  "response_example": {
  "result": [
      {
         "job_href": "jobs/results/108913291534705350-senior-software-engineer-generative-ai-google-workspace?q=Software&has_remote=true&page=1",
        "job_title": "Senior Software Engineer, Generative AI, Google Workspace",
        "job_detail": "Minimum qualifications....",
        "job_remote": "Remote eligible",
        "job_company": "Google",
        "job_location": "New York, NY, USA; Boulder, CO, USA; +4 more; +3 more"
       }
     ]
  }

 

BestProxy
BestProxyBestProxy