[R] Récupération de données de pages html

guenfood · #1

Bonjour,

Je cherche à récupérer des informations sur des fiches de livres sur un site, afin d'alimenter un fichier csv, qui sera exploité par la suite pour enrichir une base de données.

Un début de script a déjà été fait, mais il reste quelques ajustements à intégrer que je n'arrive pas à mettre en place.
Actuellement, le script me permet bien de récupérer les informations demandées, en fonction d'un fichier source (en pièce jointe) qui comprend X lignes avec les X ISBN qui m'intéressent.
Le problème est que le fichier csv créé n'est pas uniforme pour pouvoir être exploité derrière (voir exemple en pièce jointe)
Si une des données est manquante sur la page html cible, il faudrait que la cellule correspondante dans le fichier csv créé soit vide.
De plus, au lieu d'avoir une ligne par fiche, j'ai parfois 2 lignes de créées.

Enfin, il faudrait également inclure dans le script, la récupération du lien de l'image compris dans la balise

Code : Tout sélectionner

<meta property="og:image"

et également prévoir les futures mises à jour en faisant en sorte que si la cellule du fichier csv déjà créé n'est pas vide, il ne faut pas réécrire par dessus.
Voici le script tel qu'il existe à ce jour.
Merci par avance pour votre aide. S'il manque des informations, je suis à votre disposition :

► Afficher le texte

Code : Tout sélectionner

#include <String.au3>
#include <Array.au3>
HotKeySet("!q","Fin")

local $FichierCsv="Stock Librairie.csv"
local $fichier=fileopen($FichierCsv)
Local $LigneTotal

While 1
    $ISBN = FileReadLine($fichier)
    If @error = -1 Then ExitLoop
    TrayTip("API LIB", "Traitement de : "  & $ISBN,1)
    $Source = BinaryToString(InetRead('http://www.decitre.fr/rechercher/result/?q=' & $ISBN & '&search-scope=3'), 4)
    $Lien = _StringBetween($source,'<meta property="og:url" content="','" />')
    
 if IsArray($Lien) Then
    _CreLigneCSV($Lien[0])
    Sleep(100)
 Else
    FileWrite("sortie stock.csv",$ISBN&";AUCUNE INFORMATION"&@CRLF)
    endif
WEnd

Func _CreLigneCSV($Lien)
$prixIS = _StringBetween($source,"'old-price'>",'€</span></del>')
   $SourceCSV = BinaryToString(InetRead($Lien), 4)
   
   $resume = _StringBetween($sourceCSV,'<div id="description">','</div>')
   $ToutCSV = _StringBetween($sourceCSV,' <ul class="content clearfix','</ul>')
   $ToutCSV = _StringBetween($toutCSV[0],' <li>','</li>')
    Local $LigneTotal=$ISBN&";"&$resume[0]&";"
    $i=0
    while $i<=UBound($ToutCSV)-1
       local $LigneClean = StringReplace($ToutCSV[$i],"<em>","")
       $LigneClean = StringReplace($LigneClean,"</em>","")
       $LigneClean = StringReplace($LigneClean,"<a","")
       $LigneClean = StringReplace($LigneClean," href=","")
       $LigneClean = StringReplace($LigneClean,">","")
       $LigneClean = StringReplace($LigneClean,"</a","")
       $LigneClean = StringReplace($LigneClean,"               ","")
       $LigneClean = StringReplace($LigneClean,"Date de parution :","")
       $LigneClean = StringReplace($LigneClean,"Editeur :","")
       $LigneClean = StringReplace($LigneClean,"Collection :","")
       $LigneClean = StringReplace($LigneClean,"ISBN :","")
       $LigneClean = StringReplace($LigneClean,"EAN :","")
       $LigneClean = StringReplace($LigneClean,"Format :","")
       $LigneClean = StringReplace($LigneClean,"Nb. de pages :","")
       $LigneClean = StringReplace($LigneClean,"Poids :","")
       $LigneClean = StringReplace($LigneClean,"Présentation :","")
       $LigneClean = StringReplace($LigneClean,"Dimensions :","")
       $LigneTotal=$LigneTotal & $LigneClean & ";"
       $i+=1
    WEnd
    FileWrite("sortie stock.csv",$LigneTotal& $PrixIS[0]&@crlf)
   EndFunc

Func fin()
   Exit
EndFunc

#2

guenfood a écrit :Si une des données est manquante sur la page html cible, il faudrait que la cellule correspondante dans le fichier csv créé soit vide.

C'est ça le point délicat, quelle(s) donnée(s) est/sont susceptibles de manquer ?
Si on parle de données dans les informations techniques du livre, alors faudrait peut-être passer par une array 2D pour noter les définitions des données recueillies avec une bonne gestion d'erreur

► Afficher le texte

Si une donnée manque (case vide dans le tableau sur la page internet) ça fera une case vide dans l'array et une fois retranscrit un vide dans la ligne du csv

► Afficher le texte

à condition bien sûr que les lignes du csv aient une structure constante, par exemple dans le cas de mon code :
"description;image;prix;Date de parution;Editeur;Collection;ISBN;EAN, Présentation;Nb. de pages;Poids;Dimensions"
Et les données sont toutes prêtes pour remplir la bdd

#3

J'ai trouvé utile de faire un bout de code pour passer d'une variable ou d'un tableau AutoIt (0D, 1D ou 2D) à un ".CSV amélioré" (et vice-versa) qui préserve les types de données. Ainsi, je considère NULL comme distinct d'une chaîne vide, je gère les structures, les fonctions, etc. On peut aussi transposer depuis/vers un tableau 2D.

On peut donc préserver les types entre une BDD et un tableau. Le code est brut de décoffrage et mes maigres commentaires sont en nangliche, dézolède.

Le code ne cherche pas la vélocité et peut s'avérer poussif sur les grands tableaux...

► Afficher le texte

Code : Tout sélectionner

#AutoIt3Wrapper_Run_AU3Check=y

; unsorted notes:
; these two functions convert AutoIt arrays to/from a CSV-style string
; it is caller responsability to supply a variable (0 to 2 dimension) to _CsvFromArray
; or a Unicode CSV-style string to _CsvToArray
; flags: 1 forces transposition
; require 3.3.10+
;
; these functions are built to preserve basic types.
; CSV syntax rules:
; - rows terminated by CR or LF or CRLF (optional on the last line)
; - values separated by commas, possibly preceeded and/or followed by whitespaces (ignored)
; - Unicode
; - every string must be enclosed in double-quotes
; - double-quotes within a string need to be doubled
; - CR, LF & CRLF may be embedded in strings
; - integers and floating-point may be signed (but 0 = +0 = -0 = 0.0 = +0.0 = -0.0 but sign of zero is not preserved in round-trip)
; - binary values take the form 0x0123456789ABCDEF (may be value of pointer, handle or hWnd)
; - a Null is represented by an empty field or the value Null
; - {True, False} mapped to boolean
; - binary values enclosed in curly brakets represent structure contents
; - value Default represents keyword Default
; - the value <-invalid-> represents an invalid value (generally created from conversion of an untranslatable type in source array)
; Array types (input of flat variables and 1D arrays are OK and converted to 2D):
; - string
; - integer
; - double
; - binary
; - boolean mapped to {False,True}
; - keyword Default mapped to value Default
; - ptr, handle and hWnd are converted to binary (exporting these is probably useless)
; - structures: content mapped to structure of bytes enclosed in curly brakets
; - functions references e.g. to function xyz are converted to XYZ()
; - other untranslatable types (arrays, objects) mapped to value <-invalid->


Global Const $_CSV_INVALID = '<-invalid->'

Func _CsvFromArray($aIn, $bFlags = 0)
    Switch UBound($aIn, 0)
        Case 0
            Local $aIn1[1] = [$aIn]
            $aIn = $aIn1
            ContinueCase
        Case 1
            Local $aIn2[UBound($aIn)][1]
            For $i = 0 To UBound($aIn) - 1
                $aIn2[$i][0] = $aIn[$i]
            Next
            $aIn = $aIn2
            ContinueCase
        Case 2
            Local $sline, $sOut
            If BitAND($bFlags, 1) Then  ; transpose ?
                For $i = 0 To UBound($aIn, 2) - 1
                    $sline = ''
                    For $j = 0 To UBound($aIn, 1) - 2
                        $sline &= __CsvValueEncode($aIn[$j][$i]) & ','
                    Next
                    $sOut &= $sline & __CsvValueEncode($aIn[UBound($aIn, 1) - 1][$i]) & @CRLF
                Next
            Else
                For $i = 0 To UBound($aIn, 1) - 1
                    $sline = ''
                    For $j = 0 To UBound($aIn, 2) - 2
                        $sline &= __CsvValueEncode($aIn[$i][$j]) & ','
                    Next
                    $sOut &= $sline & __CsvValueEncode($aIn[$i][UBound($aIn, 2) - 1]) & @CRLF
                Next
            EndIf
        Case Else
            Return SetError(1, 0, 0)
    EndSwitch
    Return $sOut
EndFunc


Func _CsvToArray(ByRef $sIn, $bFlags = 0)
    Local Const $kField = ' ( (?:".*?")+ | [@*{]?0x(?:[[:xdigit:]]{2})+\}? | [+-]?\d*\.?\d+ | True | False | Null | Default | \w+\(\) | ' & $_CSV_INVALID & ' | (?<=,|^)\h*(?=,|$) ) '
    Local $aLine = StringRegExp($sIn, '(?imsx)((?:\h*' & $kField & '\h*,?)+)\R?', 1)
    Local $aFields = StringRegExp($aLine[0], '(?imsx)' & $kField, 3)
    Local $iCols = UBound($aFields)
    StringRegExpReplace($sIn, '(?imsx)((?:\h*' & $kField & '\h*)(?:,\h*' & $kField & '\h*){' & $iCols - 1 & '}\R?)', '')
    Local $iRows = @extended
    Local $iOfs = 1
    If BitAND($bFlags, 1) Then  ; transpose ?
        Local $aOut[$iCols][$iRows]
    Else
        Local $aOut[$iRows][$iCols]
    EndIf
    Local $vField
    For $i = 0 To $iRows - 1
        $aLine = StringRegExp($sIn, '(?imsx)((?:\h*' & $kField & '\h*,?)+)\R?', 1, $iOfs)
        $iOfs = @extended
        $aFields = StringRegExp($aLine[0], '(?imsx)' & $kField, 3)
        For $j = 0 To $iCols - 1
            $vField = $aFields[$j]
            Select
                Case StringLeft($vField, 1) = '"'
                    $vOut = StringReplace(StringMid($vField, 2, StringLen($vField) - 2), '""', '"')
                Case StringRegExp($vField, '^0x(?:[[:xdigit:]]{2})+')
                    $vOut = Binary($vField)
                Case StringRegExp($vField, '^[+-]?\d*\.?\d+')
                    $vOut = Number($vField)
                Case $vField = '' Or $vField = 'Null' Or StringRegExp($vField, '^\h+')
                    $vOut = Null
                Case $vField = 'True'
                    $vOut = True
                Case $vField = 'False'
                    $vOut = False
                Case StringRegExp($vField, '[@*]0x(?:[[:xdigit:]]{2})+')
                    Local $ptr = Ptr(StringTrimLeft($vField, 1))
                    If StringMid($vField, 1, 1) = '@' Then
                        $vOut = IsHWnd(HWnd($ptr)) ? HWnd($ptr) : $ptr
                    Else
                        $vOut = $ptr
                    EndIf
                Case StringRegExp($vField, '\{0x(?:[[:xdigit:]]{2})+\}')
                    $vField = Binary(StringMid($vField, 2, StringLen($vField) - 2))
                    Local $tStruct = DllStructCreate('byte[' & BinaryLen($vField) & ']')
                    DllStructSetData($tStruct, 1, $vField)
                    $vOut = $tStruct
                Case $vField = 'Default'
                    $vOut = Default
                Case StringRegExp($vField, '^\w+\(\)$')
                    $vOut = Execute(StringTrimRight($vField, 2))
                Case Else
                    $vOut = $_CSV_INVALID
            EndSelect
            If BitAND($bFlags, 1) Then  ; transpose ?
                $aOut[$j][$i] = $vOut
            Else
                $aOut[$i][$j] = $vOut
            EndIf
        Next
    Next
    Return $aOut
EndFunc


Func __CsvValueEncode(ByRef $vVar)
    Select
        Case IsInt($vVar) Or IsBool($vVar) Or IsBinary($vVar) Or IsKeyword($vVar) Or $vVar = $_CSV_INVALID
            Return $vVar
        Case IsString($vVar)
            Return '"' & StringReplace($vVar, '"', '""') & '"'
        Case VarGetType($vVar) = "Double"
            Return $vVar & (IsInt($vVar) ? '.0' : '')
        Case IsFunc($vVar)
            Return FuncName($vVar) & '()'
        Case IsHWnd($vVar)
            Return '@' & $vVar
        Case IsPtr($vVar)
            Return '*' & $vVar
        Case IsDllStruct($vVar)
            Local $tStruct = DllStructCreate('byte[' & DllStructGetSize($vVar) & ']', DllStructGetPtr($vVar))
            Return '{' & DllStructGetData($tStruct, 1) & '}'
        Case Else
            Return $_CSV_INVALID
    EndSelect
EndFunc

; example use

#include <Array.au3>

Local $s = "@" & WinGetHandle("AutoIt Français") & ", 55, *" & Ptr(0x12345678) & ",,"""",StringLen()" & ',"abc ""123"" def"'
ConsoleWrite($s & @LF)
Local $a = _CsvToArray($s)
_ArrayDisplay($a)
For $i = 0 To UBound($a, 2) - 1
    ConsoleWrite(VarGetType($a[0][$i]) & " = " & ($a[0][$i] = Null ? "Null" : $a[0][$i]) & @LF)
Next
Local $t = _CsvFromArray($a)
ConsoleWrite($t & @LF)

M'indiquer les bugs, svp.

Ah oui : je n'ai pas géré de ligne d'entête avec nom des champs.

guenfood · #4

Merci à vous pour votre aide.

Etant au boulot, et derrière un proxy (je n'ai pas encore réussi à implémenter de quoi prendre en compte la gestion de proxy), je ne peux pas tester dans l'immédiat.

Je vais tester ça ce soir à la maison et vous tiens informés des résultats.

PS : Mikell, les données qui peuvent être manquantes sont bien celles présentes dans la fiche technique.

#5

Je n'ai pas testé tous les codes du csv mais si tu pouvais fournir un exemple (référence/lien) où une telle donnée est manquante ça permettrait d'être beaucoup plus précis sur la démarche et donc peut-être d'alléger le script
La bdd c'est du SQLite ?

guenfood · #6

Voici un lien où la partie "Dimensions" du livre est absente : http://www.decitre.fr/livres/promotion- ... 21003.html

#7

Eh ben ... c'est pas gagné

Effectivement la partie "Dimensions" est absente mais aussi les parties "Collection" et "Nb. de pages" , mais par contre ya la partie "Format" en plus ...

On a 2 possibilités :
- ou bien tu es restrictif sur les données techniques que tu collectes de manière à ne récupérer que des données communes à tous les bouquins
- ou bien tu veux collecter le maximum de données et dans ce cas le passage par l'array 2D (cf. mon code précédent) est incontournable, avec une 1ère colonne qui récupèrera les divers "intitulés" techniques ("Date de parution", "Editeur", "Collection", "ISBN", "EAN", etc) qui devront correspondre à des champs équivalents du csv et à des titres de colonnes équivalents de la bdd, et un remplissage de la bdd qui se fera par création "INSERT INTO table (intitulé1, intitulé2, intitulé3, ...) VALUES (valeur1, valeur2, valeur3, ...)" ou updates "UPDATE table SET intitulé1 = valeur1 WHERE colonne_EAN = valeur_EAN" en piochant les infos dans l'array 2D ou le csv

#8

@guenfood : juste par curiosité, ça ne serait pas pour injecter dans un PMB par hasard ?

#9

guenfood a écrit :Je cherche à récupérer des informations sur des fiches de livres sur un site, afin d'alimenter un fichier csv

Bonsoir.
Juste pour rappeler que la collecte d'information sur un site internet est soumise à l'approbation du détenteur du site en question.

Si le site vous appartient, alors pas de problème, mais si il appartient à quelqu'un d'autre, lisez bien le règlement de celui-ci. Car au cas ou vous seriez dans l'illégalité et que le proprio porte plainte, cela peux couter très cher. ^^

guenfood · #10

jguinch a écrit :@guenfood : juste par curiosité, ça ne serait pas pour injecter dans un PMB par hasard ?

Oui, c'est dans cet optique. Ce n'est pas à proprement parlé un PMB, mais un logiciel de gestion de bibliothèque.

Tlem a écrit :Bonsoir.
Juste pour rappeler que la collecte d'information sur un site internet est soumise à l'approbation du détenteur du site en question.

Si le site vous appartient, alors pas de problème, mais si il appartient à quelqu'un d'autre, lisez bien le règlement de celui-ci. Car au cas ou vous seriez dans l'illégalité et que le proprio porte plainte, cela peux couter très cher. ^^

Des logiciels, en accès libre ou en vente, permettent de gérer sa bibliothèque en récupérant les informations relatives aux livres.
J'utilise Data Crow en ce qui me concerne, qui va récupérer des informations essentiellement sur Amazon (seul site français référencé dans le logiciel).
Intégrer d'autres sites demandent des compétences java que je n'ai pas, et je souhaite avoir une base avec le maximum de données.

guenfood · #11

Après quelques recherches supplémentaires sur la toile, je suis tombé sur un site, dont le code source est un peu mieux structuré pour récupérer les infos.
C'est sur Placedeslibraires.fr

Voici un exemple de livre qui comprend toutes les données à récupérer : http://www.placedeslibraires.fr/detaill ... 2266243216

Le lien des images est toujours sous la forme : http://images.titelive.com/3 derniers chiffres du gencod/numerodugencod_1_75.jpg
Les informations sur le nom de l'auteur, le titre du livre, le nom de l'éditeur et le prix sont dans la <div class="metaLivre">
Les autres informations sont la <div id="bloc_infos"> (Collection, Parution, Genre, EAN, Nb de pages, Dimension, Poids, Résumé).

Les autres informations comme biographie de l'auteur ne sont pas nécessaires.

Sachant que certains livres ne disposent pas de toutes ces informations (exemple : Collection, ou Dimension), et qu'il est fort possible que sur la liste de tous les ISBN qui m'intéressent, certains ne soient pas présents sur le site (et que je sache dans mon fichier de sortie les ISBN manquants).
Comment réagencer le code de départ pour en faire un script conforme à mes besoins et entièrement fonctionnel ?

Merci encore à vous, et promis, je ne vous embête plus avec ce script

#12

Ah ben zut alors, je termine juste et vlà que tu changes de site ^^
M'enfin bon comme on dit l'important c'est de participer...

► Afficher le texte

Code : Tout sélectionner

#include <Array.au3>
#include <SQLite.au3>
#include <SQLite.dll.au3>

HotKeySet("!q", "_Stop")

Local $array, $iRows, $iColumns, $iRval, $hQuery
_SQLite_Startup ()
_SQLite_Open(@ScriptDir & "\bouquins.sqlite")

_SQLite_Exec (-1, "CREATE TABLE IF NOT EXISTS liste (EAN UNIQUE, titre, description, image, prix," & _ 
    " 'Date de parution', Editeur, Collection, ISBN, Format, 'Présentation', 'Nb. de pages', Poids, Dimensions);") 

Global $tech[14] = ["EAN", "titre", "description", "image", "prix", "Date de parution", _ 
    "Editeur", "Collection", "ISBN", "Format", "Présentation", "Nb. de pages", "Poids", "Dimensions"]
Global $stop

;~ local $FichierCsv = "Stock Librairie.csv"
;~ local $file = FileRead($FichierCsv)

local $file = "9782351555125" & @crlf & _
        "9782264056405" & @crlf & _
        "9782264061614" & @crlf & _
        "9782264056245" & @crlf & _
        "9782264058478" & @crlf & _
        "9782264056764" & @crlf & _
        "9782264054623" & @crlf & _
        "9782264056139" & @crlf & _
        "9782264059321" & @crlf & _
        "9782264055750"

$lines = StringRegExp($file, '(?m)(^.*)\R?', 3)

$txtcsv = "EAN|titre|description|image|prix|Date de parution|Editeur|Collection" & _ 
        "|ISBN|Format|Présentation|Nb. de pages|Poids|Dimensions" & @crlf
For $i = 0 to UBound($lines)-1
    If $stop Then Exitloop
    $txtcsv &=_Check($lines[$i]) & @crlf
Next

FileWrite("sortie stock.csv", $txtcsv)

_SQLite_GetTable2d (-1, "SELECT * FROM liste ORDER BY EAN DESC;", $array, $iRows, $iColumns)
_ArrayDisplay($array)

_SQLite_Close ()
_SQLite_Shutdown ()


;=================================================================
Func _Stop()
   $stop = 1
EndFunc

Func _Clean($string)
      Return StringReplace($string, "'", "'")
EndFunc

Func _Check($isbn)
    Local $source = BinaryToString(InetRead('http://www.decitre.fr/rechercher/result/?q=' & $isbn & '&search-scope=3'), 4)

    Local $Lien = StringRegExp($source,'(?s)og:url.*?content="([^"]+)', 3)
    If not IsArray($Lien) Then Return $isbn & "|NO INFO"   

    Local $data = StringRegExpReplace($source,'(?s).+(<ul class="content clearfix(.*?)</ul>).+', "$1")
    Local $data2 = StringRegExp($data,'(?s)(<li>.*?</li>)', 3)
    If IsArray($data2) Then 
        Local $res[14]
        $item = StringRegExp($source, '(?s)og:title.*?content="([^"]+)', 3)
        If IsArray($item) Then $res[1] = _Clean($item[0])
    
        $item = StringRegExp($source, '(?s)og:description.*?content="([^"]+)', 3)
        If IsArray($item) Then $res[2] = _Clean($item[0])
    
        $item = StringRegExp($source, '(?s)og:image.*?content="([^"]+)', 3)
        If IsArray($item) Then $res[3] = $item[0]
    
        $item = StringRegExp($source, '(?s)price-box.*?old-price">([\d,]+)', 3)
        If IsArray($item) Then $res[4] = $item[0]
        
        For $i = 0 to UBound($data2)-1
            $item0 = StringRegExp($data2[$i], '(?s)<li>\s*(.*?)\s*:', 3)
            If IsArray($item0) Then  
                        For $k = 0 to UBound($tech)-1
                If $item0[0] == $tech[$k] Then 
                    $item1 = StringRegExp($data2[$i], '(?s)<em>\s*(.*?)\s*</em>', 3)
                    If IsArray($item1) Then $res[$k] = StringRegExpReplace($item1[0], '(?s)(<.*?>)', "")
                EndIf
            Next
            EndIf
        Next
    EndIf
    ;~ _ArrayDisplay($res)

    Local $values = "", $lignecsv = ""
    For $i = 0 to UBound($res)-1
        $values &= _SQLite_FastEscape($res[$i]) & ','
        $lignecsv &= $res[$i] & "|"
    Next
    $values = StringTrimRight($values, 1)
    $lignecsv = StringTrimRight($lignecsv, 1)

    _SQLite_Exec(-1, "Begin;")
    _SQLite_Exec(-1, "INSERT OR REPLACE INTO liste VALUES (" & $values & ");")
    _SQLite_Exec(-1, "Commit;")

    Return $lignecsv
EndFunc

guenfood · #13

Merci pour ton retour Mikell.

J'ai testé ton code, en faisant la modification suivante pour qu'il lise bien le fichier csv source :

Code : Tout sélectionner

local $FichierCsv = "Stock Librairie.csv"
local $file = FileRead($FichierCsv)

;~local $file = "9782351555125" & @crlf & _
        ;~"9782264056405" & @crlf & _
        ;~"9782264061614" & @crlf & _
        ;~"9782264056245" & @crlf & _
        ;~"9782264058478" & @crlf & _
        ;~"9782264056764" & @crlf & _
        ;~"9782264054623" & @crlf & _
       ;~ "9782264056139" & @crlf & _
       ;~ "9782264059321" & @crlf & _
        ;~"9782264055750"

Le script tourne, mais le fichier sortie stock.csv n'est pas généré.
Alors qu'avec ton code initial, j'ai bien le fichier généré avec les 10 ISBN renseigné dans local $file

Edit : Au temps pour moi, le fichier bien généré mais à la fin de l'exécution du script. Dans la première version, le fichier était créé immédiatement.

Cela semble bon au final. Il reste juste quelques soucis.
La description (résumé du livre) est parfois coupée et reportée sur une ligne en dessous.
Ensuite, Titre et Auteur sont dans le même item, alors qu'ils doivent faire l'objet d'un item chacun.
Enfin, le prix récupéré n'est pas le bon.

Je joins un exemple de fichier généré avec ton code (j'ai stoppé le script au bout de quelques secondes pour qu'il ne soit pas trop lourd).

Je pense que ces "bugs" viennent du fait que la description est récupérée dans

Code : Tout sélectionner

<meta property="og:description"

au lieu de

Code : Tout sélectionner

<div id="description">

Dès qu'il y a un &quot, cela occasionne un saut de champ.

#14

Pour le prix, ne sachant pas lequel prendre j'ai choisi au hasard le "prix éditeur" dans le cadre à droite de la page
Séparer le titre et l'auteur et prendre la description ailleurs dans le source ne demandent qu'une modification mineure du script

► Afficher le texte

Code : Tout sélectionner

#include <Array.au3>
#include <SQLite.au3>
#include <SQLite.dll.au3>

HotKeySet("!q", "_Stop")

Local $array, $iRows, $iColumns, $iRval, $hQuery
_SQLite_Startup ()
_SQLite_Open(@ScriptDir & "\bouquins2.sqlite")

_SQLite_Exec (-1, "CREATE TABLE IF NOT EXISTS liste (EAN UNIQUE, titre, auteur, description, image, prix," & _ 
    " 'Date de parution', Editeur, Collection, ISBN, Format, 'Présentation', 'Nb. de pages', Poids, Dimensions);") 

Global $tech[15] = ["EAN", "titre", "auteur", "description", "image", "prix", "Date de parution", _ 
    "Editeur", "Collection", "ISBN", "Format", "Présentation", "Nb. de pages", "Poids", "Dimensions"]
Global $stop

;~ local $FichierCsv = "Stock Librairie.csv"
;~ local $file = FileRead($FichierCsv)

local $file = "9782351555125" & @crlf & _
        "9782264056405" & @crlf & _
        "3782264061614" & @crlf & _
        "9782264056245" & @crlf & _
        "9782264058478" & @crlf & _
        "9782264056764" & @crlf & _
        "9782264054623" & @crlf & _
        "9782264056139" & @crlf & _
        "9782264059321" & @crlf & _
        "9782264055750"

$lines = StringRegExp($file, '(?m)(^.*)\R?', 3)

$txtcsv = "EAN|titre|description|image|prix|Date de parution|Editeur|Collection" & _ 
        "|ISBN|Format|Présentation|Nb. de pages|Poids|Dimensions" & @crlf

For $i = 0 to UBound($lines)-1
    If $stop Then Exitloop
    $txtcsv &=_Check($lines[$i]) & @crlf
Next

FileWrite("sortie stock.csv", $txtcsv)

_SQLite_GetTable2d (-1, "SELECT * FROM liste ORDER BY EAN DESC;", $array, $iRows, $iColumns)
_ArrayDisplay($array)

_SQLite_Close ()
_SQLite_Shutdown ()


;=================================================================
Func _Stop()
   $stop = 1
EndFunc

Func _Clean($string)
      Return StringReplace($string, "'", "'")
EndFunc

Func _Check($isbn)
    Local $source = BinaryToString(InetRead('http://www.decitre.fr/rechercher/result/?q=' & $isbn & '&search-scope=3'), 4)

    Local $Lien = StringRegExp($source,'(?s)og:url.*?content="([^"]+)', 3)
    If not IsArray($Lien) Then Return $isbn & "|NO INFO"    

    Local $data = StringRegExpReplace($source,'(?s).+(<ul class="content clearfix(.*?)</ul>).+', "$1")
    Local $data2 = StringRegExp($data,'(?s)(<li>.*?</li>)', 3)
    If IsArray($data2) Then 
        Local $res[15]
        $item = StringRegExp($source, '(?s)og:title.*?content="([^"]+)', 3)
        If IsArray($item) Then 
            $localdata = _Clean($item[0])
            $res[1] = StringRegExpReplace($localdata, '(\s+-\s+.+)', "")
            $res[2] = StringRegExpReplace($localdata, '(.+\s+-\s+)', "")
        EndIf
    
        $item = StringRegExp($source, '(?s)<div id="description">\s*([^<]+)', 3)
    ;   $item = StringRegExp($source, '(?s)og:description.*?content="([^"]+)', 3)
        If IsArray($item) Then $res[3] = _Clean($item[0])
    
        $item = StringRegExp($source, '(?s)og:image.*?content="([^"]+)', 3)
        If IsArray($item) Then $res[4] = $item[0]
    
        $item = StringRegExp($source, '(?s)price-box.*?old-price">([\d,]+)', 3)
        If IsArray($item) Then $res[5] = $item[0]
        
        For $i = 0 to UBound($data2)-1
            $item0 = StringRegExp($data2[$i], '(?s)<li>\s*(.*?)\s*:', 3)
            If IsArray($item0) Then  
              For $k = 0 to UBound($tech)-1
                If $item0[0] == $tech[$k] Then 
                    $item1 = StringRegExp($data2[$i], '(?s)<em>\s*(.*?)\s*</em>', 3)
                    If IsArray($item1) Then $res[$k] = StringRegExpReplace($item1[0], '(?s)(<.*?>)', "")
                EndIf
             Next
           EndIf
        Next
    EndIf
    ;~ _ArrayDisplay($res)

    Local $values = "", $lignecsv = ""
    For $i = 0 to UBound($res)-1
        $values &= _SQLite_FastEscape($res[$i]) & ','
        $lignecsv &= $res[$i] & "|"
    Next
    $values = StringTrimRight($values, 1)
    $lignecsv = StringTrimRight($lignecsv, 1)

    _SQLite_Exec(-1, "Begin;")
    _SQLite_Exec(-1, "INSERT OR REPLACE INTO liste VALUES (" & $values & ");")
    _SQLite_Exec(-1, "Commit;")

    Return $lignecsv
EndFunc

En fait ce code n'est qu'un exemple, il est basique et ce qui devrait t'interpeller dedans c'est essentiellement sa construction :
- en gardant les mêmes principe/structure tu peux l'adapter pour travailler sur d'autres sites, ce qui ne serait peut-être pas une mauvaise idée d'ailleurs parce que si ces sites sont plus légers tu gagneras en vitesse d'exécution
- pour le choix des données à prélever dans les pages il faut t'intéresser aux expressions régulières (StringRegExp), très efficaces pour l'extraction de strings
Si l'expérience te tente, je peux te commenter les lignes

#15

Code : Tout sélectionner

#Include "mikell.au3"

guenfood · #16

Merci Mikell. C'est super.

Evidemment, je suis preneur pour avoir le code commenté.
Pour comprendre un peu mieux comment tout fonctionne, comment modifier les champs et l'adapter pour chercher les données sur d'autres sites (comme Placedeslibraires notamment).

#17

Voilà le code commenté
Le seul point un peu délicat est que les données sont réparties dans l'array-résultat $res de 2 manières différentes avec 2 mécanismes différents :
- pour les données dont on est sûr qu'elles seront toujours présentes (titre, auteur etc) la donnée est récupérée et son index dans l'array $res est attribué d'office d'après l'index correspondant dans l'array de référence $tech
- pour les données qui peuvent être présentes ou pas, l'intitulé de chaque donnée est récupéré d'abord et comparé aux index dans l'array de référence $tech, si une correspondance est trouvée l'index est attribué, sinon la cellule reste vide

Dans ce code la bdd est remplie progressivement mais le csv n'est créé qu'à la sortie de la boucle
On pourrait aussi faire un remplissage progressif du csv mais ça consommerait sans doute plus de ressources

J'espère avoir été assez clair

► Afficher le texte

Code : Tout sélectionner

#include <Array.au3>
#include <SQLite.au3>
#include <SQLite.dll.au3>

HotKeySet("!q", "_Stop")
Global $stop

; ouverture de la base sqlite et création si elle n'existe pas, avec définition des titres de colonnes

_SQLite_Startup ()
_SQLite_Open(@ScriptDir & "\bouquins2.sqlite")
_SQLite_Exec (-1, "CREATE TABLE IF NOT EXISTS liste (EAN UNIQUE, titre, auteur, description, image, prix," & _ 
    " 'Date de parution', Editeur, Collection, ISBN, Format, 'Présentation', 'Nb. de pages', Poids, Dimensions);") 

; 1ère ligne du csv : titres des champs

$txtcsv = "EAN|titre|description|image|prix|Date de parution|Editeur|Collection" & _ 
        "|ISBN|Format|Présentation|Nb. de pages|Poids|Dimensions" & @crlf

; array avec les titres, pour futures comparaisons dans la fonction _Check

Global $tech[15] = ["EAN", "titre", "auteur", "description", "image", "prix", "Date de parution", _ 
    "Editeur", "Collection", "ISBN", "Format", "Présentation", "Nb. de pages", "Poids", "Dimensions"]

; lecture du fichier

;~ local $FichierCsv = "Stock Librairie.csv"
;~ local $file = FileRead($FichierCsv)

local $file = "9782351555125" & @crlf & _
        "9782264056405" & @crlf & _
        "3782264061614" & @crlf & _
        "9782264056245" & @crlf & _
        "9782264058478" & @crlf & _
        "9782264056764" & @crlf & _
        "9782264054623" & @crlf & _
        "9782264056139" & @crlf & _
        "9782264059321" & @crlf & _
        "9782264055750"

; lecture des lignes de $file dans l'array $lines

$lines = StringRegExp($file, '(?m)(^.*)\R?', 3)

; boucle de travail avec interrupteur $stop
; la fonction _Check crée en interne la ligne dans la bdd mais retourne aussi la ligne pour le csv

For $i = 0 to UBound($lines)-1
    If $stop Then Exitloop
    $txtcsv &=_Check($lines[$i]) & @crlf
Next

; sortie = écriture du csv

FileWrite("sortie stock.csv", $txtcsv)

; affichage du contenu de la bdd

Local $array, $iRows, $iColumns, $iRval, $hQuery
_SQLite_GetTable2d (-1, "SELECT * FROM liste ORDER BY EAN DESC;", $array, $iRows, $iColumns)
_ArrayDisplay($array)

_SQLite_Close ()
_SQLite_Shutdown ()


;=================================================================
Func _Stop()
   $stop = 1
EndFunc

Func _Clean($string)
      Return StringReplace($string, "'", "'")
EndFunc


Func _Check($isbn)
    Local $source = BinaryToString(InetRead('http://www.decitre.fr/rechercher/result/?q=' & $isbn & '&search-scope=3'), 4)

; vérifie que le lien est valide
; regex : "check à partir de 'og:url.*?content=" ' tous les caractères consécutifs qui ne sont pas un guillemet" 

    Local $Lien = StringRegExp($source,'(?s)og:url.*?content="([^"]+)', 3)

; si erreur, retourne #isbn||NO INFO comme ligne de csv et n'inscrit rien dans la bdd

    If not IsArray($Lien) Then Return $isbn & "|NO INFO"    

; sinon
; regex : "remplace tout le texte par ce qui est relevé entre '<ul class="content clearfix' et '</ul>'

    Local $data = StringRegExpReplace($source,'(?s).+(<ul class="content clearfix(.*?)</ul>).+', "$1")
    ; Msgbox(0, "content clearfix", $data)

; regex : retourne une array $data2 de tous les contenus <li>...</li> de $data
; (?s) permet au point dans '.*?' de matcher les retours à la ligne

    Local $data2 = StringRegExp($data,'(?s)(<li>.*?</li>)', 3)
    If IsArray($data2) Then 

; si OK création de l'array de travail

        Local $res[15]

;--- données à présence certaine :

; cherche "titre - auteur"
; regex : "check à partir de 'og:title.*?content=" ' tous les caractères consécutifs qui ne sont pas un guillemet" 

        $item = StringRegExp($source, '(?s)og:title.*?content="([^"]+)', 3)
        If IsArray($item) Then 
            $localdata = _Clean($item[0])

; regex : remplace (1 ou plus espaces, tiret, 1 ou plus espaces, et la fin) par rien => retourne le titre 

            $res[1] = StringRegExpReplace($localdata, '(\s+-\s+.+)', "")

; regex : remplace (le début, 1 ou plus espaces, tiret, 1 ou plus espaces) par rien => retourne l'auteur

            $res[2] = StringRegExpReplace($localdata, '(.+\s+-\s+)', "")
        EndIf
    
; regex : "check à partir de '<div id="description"> et 0 ou plus espaces' tous les caractères consécutifs qui ne sont pas un < " 
; retourne la description

        $item = StringRegExp($source, '(?s)<div id="description">\s*([^<]+)', 3)
        If IsArray($item) Then $res[3] = _Clean($item[0])
    
; regex de même principe pour avoir l'image

        $item = StringRegExp($source, '(?s)og:image.*?content="([^"]+)', 3)
        If IsArray($item) Then $res[4] = $item[0]
    
; regex de même principe pour avoir le prix
; regex : "check à partir de 'price-box.*?old-price">' tous les caractères consécutifs qui sont un chiffre ou une virgule" 

        $item = StringRegExp($source, '(?s)price-box.*?old-price">([\d,]+)', 3)
        If IsArray($item) Then $res[5] = $item[0]


;--- données à présence incertaine : 
    
; parcourt l'array $data2 des contenus <li>...</li>

        For $i = 0 to UBound($data2)-1

; regex : "check à partir de '<li> et 0 ou plus espaces' tous les caractères jusqu'à 0 ou plus espaces et deux points" 
; (retourne l'intitulé de la donnée dans la page)

            $item0 = StringRegExp($data2[$i], '(?s)<li>\s*(.*?)\s*:', 3)
            If IsArray($item0) Then 

; parcourt l'array de référence des titres de donnée 

                        For $k = 0 to UBound($tech)-1

; compare avec l'intitulé lu dans la page

                If $item0[0] == $tech[$k] Then 

; si OK, regex : "check à partir de '<em> et 0 ou plus espaces' tous les caractères jusqu'à 0 ou plus espaces et </em>" 
; si pas OK, $res[$k] restera vide

                    $item1 = StringRegExp($data2[$i], '(?s)<em>\s*(.*?)\s*</em>', 3)

; regex : remplace tous les '<...>' par rien (pour virer les tags de lien <a...>)

                    If IsArray($item1) Then $res[$k] = StringRegExpReplace($item1[0], '(?s)(<.*?>)', "")
                EndIf
            Next
            EndIf
        Next
    EndIf
    ;~ _ArrayDisplay($res)


; construit la ligne à écrire dans la bdd et la ligne du csv

    Local $values = "", $lignecsv = ""
    For $i = 0 to UBound($res)-1
        $values &= _SQLite_FastEscape($res[$i]) & ','
        $lignecsv &= $res[$i] & "|"
    Next
    $values = StringTrimRight($values, 1)
    $lignecsv = StringTrimRight($lignecsv, 1)

; écrit la ligne dans la bdd

    _SQLite_Exec(-1, "Begin;")
    _SQLite_Exec(-1, "INSERT OR REPLACE INTO liste VALUES (" & $values & ");")
    _SQLite_Exec(-1, "Commit;")

; la fonction retourne la ligne du csv
    Return $lignecsv
EndFunc

Edit
Pour le fun et comme exercice d'application, le code équivalent pour le 2ème site (la gestion est plus simple, on utilise juste le mécanisme n°1 cité avant) avec en bonus la fonction de conversion des caractères html par notre inénarrable matwachich
Attention ici le flag pour BinaryToString est à 1 (ANSI)

► Afficher le texte

Code : Tout sélectionner

#include <Array.au3>
#include <SQLite.au3>
#include <SQLite.dll.au3>

HotKeySet("!q", "_Stop")
Global $stop

Local $array, $iRows, $iColumns, $iRval, $hQuery
_SQLite_Startup ()
_SQLite_Open(@ScriptDir & "\bouquins3.sqlite")
_SQLite_Exec (-1, "CREATE TABLE IF NOT EXISTS liste (EAN UNIQUE, image, titre, auteur, prix, description, editeur, Collection, Parution, Genre, 'Nombre de pages', Dimension, Poids);") 

$txtcsv = "EAN|image|titre|auteur|prix|description|Editeur|Collection" & _ 
        "|Parution|Genre|Nb. de pages|Dimensions|Poids" & @crlf

;~ local $FichierCsv = "Stock Librairie.csv"
;~ local $file = FileRead($FichierCsv)

local $file = "9782351555125" & @crlf & _
        "9782266243216" & @crlf & _
        "3782266243216" 

$lines = StringRegExp($file, '(?m)(^.*)\R?', 3)
For $i = 0 to UBound($lines)-1
    If $stop Then Exitloop
    $txtcsv &=_Check($lines[$i]) & @crlf
Next

FileWrite("sortie stock.csv", $txtcsv)

_SQLite_GetTable2d (-1, "SELECT * FROM liste ORDER BY EAN DESC;", $array, $iRows, $iColumns)
_ArrayDisplay($array)

_SQLite_Close ()
_SQLite_Shutdown ()


;=================================================================
Func _Stop()
   $stop = 1
EndFunc

Func _CleanTags($string)
      Return StringRegExpReplace($string, '(?s)(\s*<.*?>\s*)', "")
EndFunc


Func _Check($isbn)
    Local $source = BinaryToString(InetRead('http://www.placedeslibraires.fr/detaillivre.php?gencod=' & $isbn), 1)

    If not StringInStr($source, 'link rel="alternate')  Then Return $isbn & "|NO INFO"  

    $source = _HTML_StringToChars($source)
    Local $res[13], $item

    $item = StringRegExp($source, '(?s)class="visuRecto">\s*<img src="([^"]+)', 3)
    If IsArray($item) Then $res[1] = $item[0]

    $item = StringRegExp($source, '(?s)class="titre">\s*(.*?)\s*</h1', 3)
    If IsArray($item) Then $res[2] = _CleanTags($item[0])

    $item = StringRegExp($source, '(?s)class="auteur">\s*(.*?)\s*</h2', 3) 
    If IsArray($item) Then $res[3] = _CleanTags($item[0])

    $item = StringRegExp($source, '(?s)class="editeur">\s*(.*?)\s*</a', 3)
    If IsArray($item) Then $res[6] = _CleanTags($item[0])

    $item = StringRegExp($source, '(?s)class="prix">.*?([\d.,]+)', 3)
    If IsArray($item) Then $res[4] = _CleanTags($item[0])

    $item = StringRegExp($source, '(?s)Collection :</label>\s*(.*?)</li>', 3)
    If IsArray($item) Then $res[7] = _CleanTags($item[0])

    $item = StringRegExp($source, '(?s)Parution :</label>\s*([^<]+)', 3)
    If IsArray($item) Then $res[8] = $item[0]

    $item = StringRegExp($source, '(?s)Genre :</label>\s*([^<]+)', 3)
    If IsArray($item) Then $res[9] = $item[0]

    $item = StringRegExp($source, '(?s)EAN :</label>\s*([^<]+)', 3)
    If IsArray($item) Then $res[0] = $item[0]

    $item = StringRegExp($source, '(?s)Nombre de pages :</label>\s*([^<]+)', 3)
    If IsArray($item) Then $res[10] = $item[0]

    $item = StringRegExp($source, '(?s)Dimension :</label>\s*([^<]+)', 3)
    If IsArray($item) Then $res[11] = $item[0]

    $item = StringRegExp($source, '(?s)Poids :</label>\s*([^<]+)', 3)
    If IsArray($item) Then $res[12] = $item[0]

    $item = StringRegExp($source, '(?s)class="bloc_presentation">([^<]+)', 3)
    If IsArray($item) Then $res[5] = $item[0]

    ; _ArrayDisplay($res)

    Local $values = "", $lignecsv = ""
    For $i = 0 to UBound($res)-1
        $values &= _SQLite_FastEscape($res[$i]) & ','
        $lignecsv &= $res[$i] & "|"
    Next
    $values = StringTrimRight($values, 1)
    $lignecsv = StringTrimRight($lignecsv, 1)

    _SQLite_Exec(-1, "Begin;")
    _SQLite_Exec(-1, "INSERT OR REPLACE INTO liste VALUES (" & $values & ");")
    _SQLite_Exec(-1, "Commit;")

    Return $lignecsv
EndFunc


Func _HTML_StringToChars($sString)
   ; merci matwachich
   Local $__HTML_SpecialChars[131][3] = [ _
        [130, "", ""], _
        ['"', '"', '"'], _
        ['&', '&', '&'], _
        ['€', '&#128;', '&euro;'], _
        ['', '&#129;', ''], _
        ['‚', '&#130;', ''], _
        ['ƒ', '&#131;', ''], _
        ['„', '&#132;', ''], _
        ['…', '&#133;', ''], _
        ['†', '&#134;', ''], _
        ['‡', '&#135;', ''], _
        ['ˆ', '&#136;', ''], _
        ['‰', '&#137;', ''], _
        ['Š', '&#138;', ''], _
        ['‹', '&#139;', '<'], _
        ['Œ', '&#140;', ''], _
        ['', '&#141;', ''], _
        ['Ž', '&#142;', ''], _
        ['', '&#143;', ''], _
        ['', '&#144;', ''], _
        ['‘', '&#145;', ''], _
        ['’', '&#146;', ''], _
        ['“', '&#147;', ''], _
        ['”', '&#148;', ''], _
        ['•', '&#149;', ''], _
        ['–', '&#150;', ''], _
        ['—', '&#151;', ''], _
        ['˜', '&#152;', ''], _
        ['™', '&#153;', ''], _
        ['š', '&#154;', ''], _
        ['›', '&#155;', '>'], _
        ['œ', '&#156;', '&oelig;'], _
        ['', '&#157;', ''], _
        ['ž', '&#158;', ''], _
        ['Ÿ', '&#159;', '&Yuml;'], _
        [' ', '&#160;', '&nbsp;'], _
        ['¡', '&#161;', '&iexcl;'], _
        ['¢', '&#162;', '&cent;'], _
        ['£', '&#163;', '&pound;'], _
        ['¤', '&#164;', '&curren;'], _
        ['¥', '&#165;', '&yen'], _
        ['¦', '&#166;', '&brvbar;'], _
        ['§', '&#167;', '&sect;'], _
        ['¨', '&#168;', '&uml;'], _
        ['©', '&#169;', '&copy;'], _
        ['ª', '&#170;', '&ordf;'], _
        ['«', '&#171;', '&laquo;'], _
        ['¬', '&#172;', '&not;'], _
        ['', '&#173;', '&shy;'], _
        ['®', '&#174;', '&reg;'], _
        ['¯', '&#175;', '&masr;'], _
        ['°', '&#176;', '&deg;'], _
        ['±', '&#177;', '&plusmn;'], _
        ['²', '&#178;', '&sup2;'], _
        ['³', '&#179;', '&sup3;'], _
        ['´', '&#180;', '&acute;'], _
        ['µ', '&#181;', '&micro;'], _
        ['¶', '&#182;', '&para;'], _
        ['·', '&#183;', '&middot;'], _
        ['¸', '&#184;', '&cedil;'], _
        ['¹', '&#185;', '&sup1;'], _
        ['º', '&#186;', '&ordm;'], _
        ['»', '&#187;', '&raquo;'], _
        ['¼', '&#188;', '&frac14;'], _
        ['½', '&#189;', '&frac12;'], _
        ['¾', '&#190;', '&frac34;'], _
        ['¿', '&#191;', '&iquest;'], _
        ['À', '&#192;', '&Agrave;'], _
        ['Á', '&#193;', '&Aacute;'], _
        ['Â', '&#194;', '&Acirc;'], _
        ['Ã', '&#195;', '&Atilde;'], _
        ['Ä', '&#196;', '&Auml;'], _
        ['Å', '&#197;', '&Aring;'], _
        ['Æ', '&#198;', '&Aelig'], _
        ['Ç', '&#199;', '&Ccedil;'], _
        ['È', '&#200;', '&Egrave;'], _
        ['É', '&#201;', '&Eacute;'], _
        ['Ê', '&#202;', '&Ecirc;'], _
        ['Ë', '&#203;', '&Euml;'], _
        ['Ì', '&#204;', '&Igrave;'], _
        ['Í', '&#205;', '&Iacute;'], _
        ['Î', '&#206;', '&Icirc;'], _
        ['Ï', '&#207;', '&Iuml;'], _
        ['Ð', '&#208;', '&eth;'], _
        ['Ñ', '&#209;', '&Ntilde;'], _
        ['Ò', '&#210;', '&Ograve;'], _
        ['Ó', '&#211;', '&Oacute;'], _
        ['Ô', '&#212;', '&Ocirc;'], _
        ['Õ', '&#213;', '&Otilde;'], _
        ['Ö', '&#214;', '&Ouml;'], _
        ['×', '&#215;', '&times;'], _
        ['Ø', '&#216;', '&Oslash;'], _
        ['Ù', '&#217;', '&Ugrave;'], _
        ['Ú', '&#218;', '&Uacute;'], _
        ['Û', '&#219;', '&Ucirc;'], _
        ['Ü', '&#220;', '&Uuml;'], _
        ['Ý', '&#221;', '&Yacute;'], _
        ['Þ', '&#222;', '&thorn;'], _
        ['ß', '&#223;', '&szlig;'], _
        ['à', '&#224;', '&agrave;'], _
        ['á', '&#225;', '&aacute;'], _
        ['â', '&#226;', '&acirc;'], _
        ['ã', '&#227;', '&atilde;'], _
        ['ä', '&#228;', '&auml;'], _
        ['å', '&#229;', '&aring;'], _
        ['æ', '&#230;', '&aelig;'], _
        ['ç', '&#231;', '&ccedil;'], _
        ['è', '&#232;', '&egrave;'], _
        ['é', '&#233;', '&eacute;'], _
        ['ê', '&#234;', '&ecirc;'], _
        ['ë', '&#235;', '&euml;'], _
        ['ì', '&#236;', '&igrave;'], _
        ['í', '&#237;', '&iacute;'], _
        ['î', '&#238;', '&icirc;'], _
        ['ï', '&#239;', '&iuml;'], _
        ['ð', '&#240;', '&eth;'], _
        ['ñ', '&#241;', '&ntilde;'], _
        ['ò', '&#242;', '&ograve;'], _
        ['ó', '&#243;', '&oacute;'], _
        ['ô', '&#244;', '&ocirc;'], _
        ['õ', '&#245;', '&otilde;'], _
        ['ö', '&#246;', '&ouml;'], _
        ['÷', '&#247;', '&divide;'], _
        ['ø', '&#248;', '&oslash;'], _
        ['ù', '&#249;', '&ugrave;'], _
        ['ú', '&#250;', '&uacute;'], _
        ['û', '&#251;', '&ucirc;'], _
        ['ü', '&#252;', '&uuml;'], _
        ['ý', '&#253;', '&yacute;'], _
        ['þ', '&#254;', '&thorn;'], _
        ['ÿ', '&#255;', '&yuml;'] ]
    For $i = 1 To $__HTML_SpecialChars[0][0]
      ;  If $__HTML_SpecialChars[$i][1] Then _
      ;      $sString = StringReplace($sString, $__HTML_SpecialChars[$i][1], $__HTML_SpecialChars[$i][0], 0, 1)
        If $__HTML_SpecialChars[$i][2] Then _
            $sString = StringReplace($sString, $__HTML_SpecialChars[$i][2], $__HTML_SpecialChars[$i][0], 0, 1)
    Next
    Return $sString
EndFunc

jguinch a écrit :
Code : Tout sélectionner
#Include "mikell.au3"

Scilicet, hoc factum est

guenfood · #18

Super Mikell.
Le dernier code est parfait.
Merci beaucoup.

Je suis en train de regarder un dernier point dans ce code, car la description (résumé du livre) est systématiquement sur plusieurs lignes.
Dès qu'il y a un saut de ligne dans le résumé (dans le code source), il est repris dans le csv. Quand j'affiche le code source, je constate que ces sauts de lignes ne sont pas effectués avec des balises <br>.
Y a t'il quelque chose à rajouter dans la portion de code suivante pour empêcher cela ?

Code : Tout sélectionner

$item = StringRegExp($source, '(?s)class="bloc_presentation">([^<]+)', 3)
    If IsArray($item) Then $res[5] = $item[0]

Edit : C'est bon, je pense avoir trouvé. Voilà le code modifié

Code : Tout sélectionner

If IsArray($item) Then $res[5] = StringRegExpReplace ($item[0], @lf, " ")

AutoIt Français

[R] Récupération de données de pages html

[R] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html

Re: [..] Récupération de données de pages html