recherche d'idées pour renommer des pdf en fonction de leur contenu

Aide et conseils concernant AutoIt et ses outils.
Règles du forum
.
Répondre
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

recherche d'idées pour renommer des pdf en fonction de leur contenu

#1

Message par ptiseb60 »

Bonjour a tous,

je me permet de vous contacter car je suis en panne sèche après quelques temps de recherche sur le forum et sur le net.

J'ai besoin d'automatiser des traitements pour l'import de fichiers PDF dans une GED métier. L'import en masse peut être automatisé en fonction du nom du fichier et de l'arborescence de dépôt.
Les informations nécessaire au nommage des fichiers peuvent être ajouté dans les pieds de page des documents.

J'aimerais trouver une solution qui permettrait de faire une reconnaissance d'écriture d'une zone précise des pdf puis de renommer ces pdf en fonction de cela.
La suite du traitement (que je devrais être en mesure de gérer seul) est de déplacer le fichier en fonction de son nom.
Les nom vont être sous la forme TYPEDEFICHIER_REFERENCE_INCREMENT.pdf où :
- TYPEDEFICHIER = texte de la zone 1 du fichier
- REFERENCE= texte de la zone 2 du fichier
- INCREMENT = numéro a incrémenter pour éviter d'écraser un fichier déjà présent si le type et la référence sont commune. Sans limitation mais je pense que sur 3 caractères ce serait amplement suffisant.

En rédigeant ce message je pense déjà a une évolution possible mais je ne sais pas si c'est faisable sur autoit, remplacer les chaine de caractères du pieds page a utiliser par un code barre pour "disons" moins polluer visuellement les documents.

Je vous remercie par avance pour vos retours, idées voir pourquoi pas aides :wink:

Ptiseb
Avatar du membre
walkson
Modérateur
Modérateur
Messages : 1020
Enregistré le : ven. 12 août 2011 19:49
Localisation : Hurepoix
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#2

Message par walkson »

Bonjour,
Vous avez regardé cet UDF viewtopic.php?f=21&t=12056 ?
Cordialement,
Walkson
"Horas non numero nisi serenas " Le canon de midi
(Je ne compte que les heures heureuses)
Avatar du membre
mikell
Spammer !
Spammer !
Messages : 6292
Enregistré le : dim. 29 mai 2011 17:32
Localisation : Deep Cévennes
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#3

Message par mikell »

ptiseb60 a écrit : jeu. 10 août 2023 12:14J'aimerais trouver une solution qui permettrait de faire une reconnaissance d'écriture d'une zone précise des pdf puis de renommer ces pdf en fonction de cela.
Est-ce qu'il serait possible de nous poster un de ces fichiers pdf, en précisant le(s) texte(s) à extraire ?
" L'échec est le fondement de la réussite. " (Lao-Tseu )
" Plus ça rate, plus on a de chances que ça marche " (les Shadoks )
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#4

Message par ptiseb60 »

walkson a écrit : jeu. 10 août 2023 14:57 Bonjour,
Vous avez regardé cet UDF viewtopic.php?f=21&t=12056 ?
Merci walkson pour cette piste je vais l'explorer au cas où mais si je comprend bien il faut dans mon script préciser le/les mots à rechercher or ces mots dépendent du type de document et des types j'en tout une pelleté et qui va ne faire qu'augmenter avec le temps.

L'idée serait plus de définir une zone du document a analyse pour ne récupérer que et uniquement le contenu trouvé dans cette zone.
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#5

Message par ptiseb60 »

mikell a écrit : jeu. 10 août 2023 15:38
ptiseb60 a écrit : jeu. 10 août 2023 12:14J'aimerais trouver une solution qui permettrait de faire une reconnaissance d'écriture d'une zone précise des pdf puis de renommer ces pdf en fonction de cela.
Est-ce qu'il serait possible de nous poster un de ces fichiers pdf, en précisant le(s) texte(s) à extraire ?
Je te remercie également mikell d'accepter de me preter main forte sur ce sujet.
Le problème c'est que ces fichiers contiennent des données a caractère personnelle ça va donc être compliqué.
et vous donner un document vide avec juste une partie du pied de page ne permettra pas je pense de vous avancer.

concrètement en pied de page, font barlow https://www.fontsquirrel.com/fonts/barlow à gauche une info de type DAT_87654321 ou DPE_87654321 ou DOSLOC_9876543210 et sur la droite le mot SPLITZONE qui me sert de mot clé pour déterminer le début d'un document (car je projète également par la suite de permettre a mon script de séparer en différent PDF a chaque nouvelle page où ce mot est détecté mais bon un pas après l'autre :D ).

concernant la taille de ces écriture il faudrait que ce soit le plus petit possible pour rester discret (d'où ma réflexion sur l'utilisation de code barre avec une police d'écriture de type code128 par exemple).
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#6

Message par ptiseb60 »

pour être parfaitement franc j'arrive déjà a faire cela mais ca nécessite une licence adobe acrobat pro et un plugin payant.
De plus, même en poussant la numérisation a 300dpi je suis contrains de conserver une taille 8 voir 9 pour que le traitement reste fiable.
Le problème c'est le couts et surtout les temps de traitement car l'ocr d'adobe pro me contrains a faire l'ocr sur l'intégralité des documents.
Pour vous donner une idée j'ai traité un peu plus de 24000 documents l'an dernier avec ça mais quand le script tombe sur un lot de 1000 pages ca peux prendre parfois plusieurs heures de traitement en fonction de ce que l'on retrouve dans les documents...
Avatar du membre
mikell
Spammer !
Spammer !
Messages : 6292
Enregistré le : dim. 29 mai 2011 17:32
Localisation : Deep Cévennes
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#7

Message par mikell »

Dommage, avoir un exemple aurait peut-être aidé
Je ne pensais à de l'ocr, mais avec un peu de chance si les infos voulues sont en clair dans le code du pdf alors on aurait pu les extraire facilement
Sinon trouver un utilitaire gratuit pour sortir le texte et extraire ces infos
" L'échec est le fondement de la réussite. " (Lao-Tseu )
" Plus ça rate, plus on a de chances que ça marche " (les Shadoks )
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#8

Message par ptiseb60 »

Comment savoir si elles sont en clair?
Lorsque j'ouvre le pdf dans un notepad++ je ne retrouve pas les mots clés en tout cas.

Et sinon, comment procéder lors de la génération du pdf pour que les informations apparaissent en clair justement?
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#9

Message par ptiseb60 »

voici un exemple bidon sans contenu, sans entête et sans pied de page avec juste une reformulation de ce que pourrait être les informations a reconnaitre (en pied de page)
exemple.pdf
(17.36 Kio) Téléchargé 319 fois
rgx
Niveau 4
Niveau 4
Messages : 61
Enregistré le : sam. 16 nov. 2019 17:53
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#10

Message par rgx »

Bonjour,

Plusieurs chose à considérer:
- Si quand vous ouvrez un pdf dans n'importe quel lecteur, vous pouvez sélectionner du texte avec la souris, alors c'est bien du texte et non pas une image (scannée), vous n'avez donc pas besoin de faire de l'OCR: l'utilisation de pdftotext suffit à extraire les informations.
- Si c'est donc du texte, il suffit alors d'utiliser une expression régulière pour extraire la partie désirée; si ce texte n'est pas à un emplacement constant.
- L'extraction d'information textuelle est facile, la réécriture est difficile mais elle peut être faite plus facilement en utilisant le principe des annotations PDF que de modifier la page elle-même. Perso, je préfère mettre un nom spécial au fichier lui-même.
- Il est déconseillé (mais chacun fait comme il veut) de modifier un document qui doit entrer dans un système de GED. En effet, on signe souvent les document électroniquement (ou on fait un checksum externe). La modification nécessitera de tout refaire. Comme souvent on stock les checksums ailleurs par sécurité, ça provoque des incohérences ensuite.

Voici ce que donnerait la maquette ligne de commande si on veut extraire la ligne contenant le numéro d'avenant:

Code : Tout sélectionner

C:\Tmp>pdftotext exemple.pdf & findstr /i "avenant" exemple.txt
AVENANT_BAIL_9876543210
Reste à en faire un script autoit pour boucler et renommer en fonction du numéro extrait.

Pour procéder dans l'autre sens (réécrire dans un PDF), je ne connais pas d'outils ligne de commande (je vais chercher), j'ai utilisé il y a longtemps, les PDF Tools de Tracker Software (bien moins chers que les produits addobe). Ca me permettait de rajouter du texte, des filigranes etc.

Edit: Outils pour ajouter du texte et par exemple des dates (fonction appelée Stamp (timbre) dans un pdf) par exemple cpdf gratuit pour tester. Ensuite pour un usage pro, il faut acheter une licence. Il en existe d'autres, mais je n'en ai trouvé aucune gratuite pour un usage professionnel.

:wink:
ptiseb60
Niveau 2
Niveau 2
Messages : 23
Enregistré le : ven. 19 mai 2017 14:59
Status : Hors ligne

Re: recherche d'idées pour renommer des pdf en fonction de leur contenu

#11

Message par ptiseb60 »

Bonjour,

Désolé pour le temps de réponse, j'ai été absent quelques jours.

Admettons que pour simplifier les choses j'arrive a forcer les numérisations de nos copieurs a faire systématiquement de l'OCR.
il reste néanmoins un risque que les mots clés a retrouver en bas de page apparaissent ailleurs dans les textes des documents numérisé.

Est il possible avec pdftotext de délimiter une zone d'analyse (pied de page)?
Je n'ai pas retrouvé d'info allant en ce sens a moins que ce ne soit en jouant avec les −marginl −marginr −margint −marginb ?


Je vous remercie par avance.
Répondre