Como rastrexar un sitio grande e extraer datos usando SEO Spider de Screaming Frog
Agora mesmo, estamos axudando a varios clientes coas migracións de Marketo. Como as grandes empresas utilizan solucións empresariais como esta, é como unha araña que se tece en procesos e plataformas ao longo dos anos ata que as empresas nin sequera son conscientes de todos os puntos de contacto.
Cunha plataforma de automatización de mercadotecnia empresarial como Marketo, os formularios son o punto de entrada dos datos en sitios e páxinas de destino. As empresas adoitan ter miles de páxinas e centos de formularios nos seus sitios que deben ser identificados para actualizar.
Unha gran ferramenta para iso é Araña SEO de Screaming Frog… quizais a plataforma máis popular no mercado de SEO para rastrexar, auditar e extraer datos dun sitio. A plataforma rica en funcións ofrece centos de opcións para practicamente todas as tarefas que necesites. Non obstante, as funcións van moito máis alá da optimización para a busca, cunha característica incriblemente útil para extraer datos do teu sitio mentres se rastrexa.
Screaming Frog SEO Spider: Rastrexar e extraer
Unha característica clave de Screaming Frog SEO Spider é que pode realizar extraccións personalizadas baseadas en Rex, XPathou CSPath específicos. Isto é moi útil xa que desexamos rastrexar os sitios do cliente e auditar e capturar os valores MunchkinID e FormId das páxinas.
Coa ferramenta, abre Configuración> Personalizado> Extracción para identificar elementos que desexa extraer.
A pantalla de extracción permite a obtención de datos practicamente ilimitada:
Extracción de Regex, XPath e CSSPath
Para o MunchkinID, o identificador está situado dentro do script de formulario que hai na páxina:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Despois aplicamos un Regra regex para capturar a identificación desde a etiqueta de script inserida na páxina:
Regex: ["']id["']: *["'](.*?)["']
Para o ID de formulario, os datos están nunha etiqueta de entrada dentro do formulario Marketo:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Aplicamos un Regra XPath para capturar o id desde dentro do formulario inserido na páxina. A consulta XPath busca un formulario cunha entrada cun nome de formidable, entón a extracción garda o valor:
XPath: //form/input[@name="formid"]/@value
Extraer etiquetas de estilo en liña
Estamos axudando a un cliente a limpar un sitio onde usaba estilos en liña no complemento Elementor para personalizar practicamente todos os elementos cunha páxina. Para identificar onde se utilizaron os estilos en liña, raspamos o sitio con varias regras RegEx para a extracción personalizada:
- Estilo Inline Span:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Estilo en liña de etiqueta de ancoraxe:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Estilo en liña de etiqueta div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Estilo en liña de etiqueta de título:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Exclusións
At Martech Zone, servimos o sitio en varios idiomas en diferentes subdominios. Non é necesario rastrexar estas traducións xa que todos os recursos e a información baséanse no sitio principal. Por iso, activamos a configuración da lista de exclusións e engadimos a seguinte regra:
.*\.martech.zone
Tamén podes usalo para omitir o rastrexo de camiños innecesarios, como as etiquetas, engadindo:
martech.zone/tag/.*
Tampouco queremos rastrexar as nosas páxinas AMP, que rematan en ?amp=1
, así que no
https?://[^\s]+?\?amp=1
A plataforma incluso ten un bo método para probar algúns URL contra as regras para garantir que funcionen correctamente antes de rastrexar o teu sitio.
Screaming Frog SEO Spider renderizado de JavaScript
Outra gran opción de Screaming Frog é que non te limitas a HTML na páxina, pode renderizar calquera JavaScript que vai inserir formularios no seu sitio. Dentro Configuración> Araña, pode ir á pestana Renderizado e habilitalo.
Por suposto, isto tarda un pouco máis en rastrexar o sitio, pero obterá formularios que se renderizan do lado do cliente con JavaScript, así como formularios inseridos no servidor.
Aínda que se trata dunha aplicación moi específica, é moi útil xa que estás a traballar con sitios grandes. Quere absolutamente auditar onde están integrados os seus formularios en todo o sitio.
Descargar Screaming Frog SEO Spider
Divulgación: Martech Zone está a usar as súas ligazóns de afiliados neste artigo.