паутина скребет стол с R

Я пытаюсь вычистить таблицу из веб-сайта Pitch Book. Но использование простого HTML не работает, потому что для загрузки данных pitch book использует java-скрипт вместо HTML, поэтому мне нужно выполнить JS, чтобы извлечь информацию из файла json. это мой код:

    library(httr)
    library(jsonlite)
    library(magrittr)  
    json=get("https://my.pitchbook.com/old/ 
    homeContent.64ea0536fd321cc1dd3b.js") %>% 
    content(as='text') %>% 
    fromJSON()

я получаю эту ошибку:

    Error in 
   get("https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js") 
    : 
     object 
  'https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js'
   not found

все данные, которые я пытаюсь загрузить, возвращают ту же ошибку. Буду признателен за вашу помощь :) спасибо :)

Всего 1 ответ


Вы вызвали base::get а не httr::GET . Так и должно быть

library(httr)
library(jsonlite)
library(magrittr)  
json <- GET(
  "https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js"
) %>% 
  content("text") %>% 
  fromJSON()

но я не совсем уверен, что URL вашего сайта дает правильный JSON. Это само по себе даст

лексическая ошибка: неверный символ в тексте json.


Есть идеи?

10000